टेक्नोलॉजी की दुनिया में एक नया क्रांतिकारी कदम उठाते हुए Microsoft ने हाल ही में अपना Vibe Voice AI मॉडल पेश किया है। यह एक ओपन-सोर्स AI मॉडल है, जो केवल टेक्स्ट इनपुट लेकर 90 मिनट तक का मल्टी-स्पीकर पॉडकास्ट जनरेट कर सकता है। इतना ही नहीं, यह मॉडल नैचुरल पॉज़, इमोशन्स और यहां तक कि गाने तक जनरेट करने में सक्षम है। इस मॉडल का डेमो सोशल मीडिया प्लेटफॉर्म X पर शेयर किया गया, जिसमें “See You Again” गाने का सैंपल सुनाया गया।
Microsoft just dropped VibeVoice (open-source)
— Min Choi (@minchoi) August 27, 2025
This AI turn text into a 90-min, up to 4-voice podcast.
With natural pauses, emotion, even singing.
6 wild examples + code:
1. Spontaneous singing pic.twitter.com/Q0MhlnMH8M
Vibe Voice का सबसे बड़ा हाइलाइट इसका Transformer-based Large Language Model (LLM) है, जिसे एक diffusion head और continuous speech tokenizers के साथ जोड़ा गया है। इसकी खासियत यह है कि यह केवल 7.5 Hz की लो-फ्रेम रेट पर काम करता है, जिससे यह लंबे समय तक ऑडियो को प्रोसेस करते हुए भी बेहतरीन computational efficiency और audio quality देता है।
Microsoft का यह नया मॉडल पॉडकास्ट और वॉइस कंटेंट बनाने वाले क्रिएटर्स के लिए बेहद उपयोगी साबित हो सकता है। अब किसी भी टेक्स्ट को सीधे पॉडकास्ट या नैरेटेड कंटेंट में बदला जा सकता है। इस मॉडल के जरिए मल्टी-स्पीकर सेटअप भी तैयार किया जा सकता है, यानी यूज़र चाहे तो अलग-अलग कैरेक्टर्स की आवाज़ एक ही स्क्रिप्ट से जनरेट कर सकते हैं।

सबसे दिलचस्प बात यह है कि Vibe Voice गाना भी गा सकता है, जबकि इसे म्यूज़िक डेटा पर खास तौर पर ट्रेन नहीं किया गया था। यह एक emergent capability मानी जा रही है, यानी मॉडल की इंटरनल ट्रेनिंग से एक अतिरिक्त फीचर खुद उभरकर सामने आया। हालांकि, कभी-कभी यह सुर से बाहर भी गा सकता है, लेकिन इसकी संभावना को देखते हुए यह भविष्य में म्यूज़िक और एंटरटेनमेंट इंडस्ट्री में बड़ी भूमिका निभा सकता है।

यह टेक्नोलॉजी न सिर्फ क्रिएटर्स बल्कि कंपनियों और स्टार्टअप्स के लिए भी गेम-चेंजर बन सकती है। पॉडकास्टिंग, ऑडियोबुक नैरेशन, वॉइसओवर, और पर्सनलाइज्ड कंटेंट जैसे कई क्षेत्रों में Vibe Voice का इस्तेमाल आसान हो जाएगा। पहले जहां इतने लंबे और नैचुरल ऑडियो बनाने के लिए भारी खर्च करना पड़ता था, वहीं अब यह काम ओपन-सोर्स मॉडल की मदद से किफायती तरीके से संभव होगा।
हालांकि, Microsoft का कहना है कि अभी यह शुरुआती फेज़ में है और इसमें कई सुधारों की ज़रूरत होगी। खासकर म्यूज़िक जनरेशन वाले हिस्से में क्वालिटी और ट्यूनिंग को बेहतर बनाने की कोशिश की जाएगी। लेकिन इतना तो तय है कि Vibe Voice आने वाले समय में AI वॉइस टेक्नोलॉजी का एक बड़ा नाम बनने वाला है।
इस लॉन्च के साथ Microsoft ने Google और OpenAI जैसी कंपनियों को भी सीधी टक्कर दी है, क्योंकि Vibe Voice न केवल पॉडकास्ट बल्कि म्यूज़िक और नैचुरल कन्वर्सेशन जनरेशन में भी बेहतरीन क्षमता दिखा रहा है।