Microsoft का Vibe Voice: 90 मिनट तक का पॉडकास्ट और गाना जनरेट करने वाला नया AI मॉडल

Publish on - August 27, 2025

Akshay Barman

टेक्नोलॉजी की दुनिया में एक नया क्रांतिकारी कदम उठाते हुए Microsoft ने हाल ही में अपना Vibe Voice AI मॉडल पेश किया है। यह एक ओपन-सोर्स AI मॉडल है, जो केवल टेक्स्ट इनपुट लेकर 90 मिनट तक का मल्टी-स्पीकर पॉडकास्ट जनरेट कर सकता है। इतना ही नहीं, यह मॉडल नैचुरल पॉज़, इमोशन्स और यहां तक कि गाने तक जनरेट करने में सक्षम है। इस मॉडल का डेमो सोशल मीडिया प्लेटफॉर्म X पर शेयर किया गया, जिसमें “See You Again” गाने का सैंपल सुनाया गया।

Microsoft just dropped VibeVoice (open-source)

This AI turn text into a 90-min, up to 4-voice podcast.

With natural pauses, emotion, even singing.

6 wild examples + code:

1. Spontaneous singing pic.twitter.com/Q0MhlnMH8M
— Min Choi (@minchoi) August 27, 2025

Vibe Voice का सबसे बड़ा हाइलाइट इसका Transformer-based Large Language Model (LLM) है, जिसे एक diffusion head और continuous speech tokenizers के साथ जोड़ा गया है। इसकी खासियत यह है कि यह केवल 7.5 Hz की लो-फ्रेम रेट पर काम करता है, जिससे यह लंबे समय तक ऑडियो को प्रोसेस करते हुए भी बेहतरीन computational efficiency और audio quality देता है।

Microsoft का यह नया मॉडल पॉडकास्ट और वॉइस कंटेंट बनाने वाले क्रिएटर्स के लिए बेहद उपयोगी साबित हो सकता है। अब किसी भी टेक्स्ट को सीधे पॉडकास्ट या नैरेटेड कंटेंट में बदला जा सकता है। इस मॉडल के जरिए मल्टी-स्पीकर सेटअप भी तैयार किया जा सकता है, यानी यूज़र चाहे तो अलग-अलग कैरेक्टर्स की आवाज़ एक ही स्क्रिप्ट से जनरेट कर सकते हैं।

सबसे दिलचस्प बात यह है कि Vibe Voice गाना भी गा सकता है, जबकि इसे म्यूज़िक डेटा पर खास तौर पर ट्रेन नहीं किया गया था। यह एक emergent capability मानी जा रही है, यानी मॉडल की इंटरनल ट्रेनिंग से एक अतिरिक्त फीचर खुद उभरकर सामने आया। हालांकि, कभी-कभी यह सुर से बाहर भी गा सकता है, लेकिन इसकी संभावना को देखते हुए यह भविष्य में म्यूज़िक और एंटरटेनमेंट इंडस्ट्री में बड़ी भूमिका निभा सकता है।

यह टेक्नोलॉजी न सिर्फ क्रिएटर्स बल्कि कंपनियों और स्टार्टअप्स के लिए भी गेम-चेंजर बन सकती है। पॉडकास्टिंग, ऑडियोबुक नैरेशन, वॉइसओवर, और पर्सनलाइज्ड कंटेंट जैसे कई क्षेत्रों में Vibe Voice का इस्तेमाल आसान हो जाएगा। पहले जहां इतने लंबे और नैचुरल ऑडियो बनाने के लिए भारी खर्च करना पड़ता था, वहीं अब यह काम ओपन-सोर्स मॉडल की मदद से किफायती तरीके से संभव होगा।

हालांकि, Microsoft का कहना है कि अभी यह शुरुआती फेज़ में है और इसमें कई सुधारों की ज़रूरत होगी। खासकर म्यूज़िक जनरेशन वाले हिस्से में क्वालिटी और ट्यूनिंग को बेहतर बनाने की कोशिश की जाएगी। लेकिन इतना तो तय है कि Vibe Voice आने वाले समय में AI वॉइस टेक्नोलॉजी का एक बड़ा नाम बनने वाला है।

इस लॉन्च के साथ Microsoft ने Google और OpenAI जैसी कंपनियों को भी सीधी टक्कर दी है, क्योंकि Vibe Voice न केवल पॉडकास्ट बल्कि म्यूज़िक और नैचुरल कन्वर्सेशन जनरेशन में भी बेहतरीन क्षमता दिखा रहा है।

Microsoft का Vibe Voice: 90 मिनट तक का पॉडकास्ट और गाना जनरेट करने वाला नया AI मॉडल

Akshay Barman

Pointillist Starry Night Prompt – Create Magical Night Sky Art

Bauhaus Prompt – Minimalist Design with Primary Shapes & Bold Colors

Liquid Plumes Prompt – Dreamy Abstract Ink in Water

Celebrity Meet Birthday Prompt – Tom Cruise के साथ Realistic Candid Photo

Birthday Prompt – Glamorous Pink Ball Gown & Strawberry Cake Portrait

Follow Us On Social Media

Get Update on Social Media