Microsoft का Vibe Voice: 90 मिनट तक का पॉडकास्ट और गाना जनरेट करने वाला नया AI मॉडल

टेक्नोलॉजी की दुनिया में एक नया क्रांतिकारी कदम उठाते हुए Microsoft ने हाल ही में अपना Vibe Voice AI मॉडल पेश किया है। यह एक ओपन-सोर्स AI मॉडल है, जो केवल टेक्स्ट इनपुट लेकर 90 मिनट तक का मल्टी-स्पीकर पॉडकास्ट जनरेट कर सकता है। इतना ही नहीं, यह मॉडल नैचुरल पॉज़, इमोशन्स और यहां तक कि गाने तक जनरेट करने में सक्षम है। इस मॉडल का डेमो सोशल मीडिया प्लेटफॉर्म X पर शेयर किया गया, जिसमें “See You Again” गाने का सैंपल सुनाया गया।

Vibe Voice का सबसे बड़ा हाइलाइट इसका Transformer-based Large Language Model (LLM) है, जिसे एक diffusion head और continuous speech tokenizers के साथ जोड़ा गया है। इसकी खासियत यह है कि यह केवल 7.5 Hz की लो-फ्रेम रेट पर काम करता है, जिससे यह लंबे समय तक ऑडियो को प्रोसेस करते हुए भी बेहतरीन computational efficiency और audio quality देता है।

Microsoft का यह नया मॉडल पॉडकास्ट और वॉइस कंटेंट बनाने वाले क्रिएटर्स के लिए बेहद उपयोगी साबित हो सकता है। अब किसी भी टेक्स्ट को सीधे पॉडकास्ट या नैरेटेड कंटेंट में बदला जा सकता है। इस मॉडल के जरिए मल्टी-स्पीकर सेटअप भी तैयार किया जा सकता है, यानी यूज़र चाहे तो अलग-अलग कैरेक्टर्स की आवाज़ एक ही स्क्रिप्ट से जनरेट कर सकते हैं।

Vibe Voice,Microsoft Vibe Voice AI

सबसे दिलचस्प बात यह है कि Vibe Voice गाना भी गा सकता है, जबकि इसे म्यूज़िक डेटा पर खास तौर पर ट्रेन नहीं किया गया था। यह एक emergent capability मानी जा रही है, यानी मॉडल की इंटरनल ट्रेनिंग से एक अतिरिक्त फीचर खुद उभरकर सामने आया। हालांकि, कभी-कभी यह सुर से बाहर भी गा सकता है, लेकिन इसकी संभावना को देखते हुए यह भविष्य में म्यूज़िक और एंटरटेनमेंट इंडस्ट्री में बड़ी भूमिका निभा सकता है।

Vibe Voice,Microsoft Vibe Voice AI (1)

यह टेक्नोलॉजी न सिर्फ क्रिएटर्स बल्कि कंपनियों और स्टार्टअप्स के लिए भी गेम-चेंजर बन सकती है। पॉडकास्टिंग, ऑडियोबुक नैरेशन, वॉइसओवर, और पर्सनलाइज्ड कंटेंट जैसे कई क्षेत्रों में Vibe Voice का इस्तेमाल आसान हो जाएगा। पहले जहां इतने लंबे और नैचुरल ऑडियो बनाने के लिए भारी खर्च करना पड़ता था, वहीं अब यह काम ओपन-सोर्स मॉडल की मदद से किफायती तरीके से संभव होगा।

हालांकि, Microsoft का कहना है कि अभी यह शुरुआती फेज़ में है और इसमें कई सुधारों की ज़रूरत होगी। खासकर म्यूज़िक जनरेशन वाले हिस्से में क्वालिटी और ट्यूनिंग को बेहतर बनाने की कोशिश की जाएगी। लेकिन इतना तो तय है कि Vibe Voice आने वाले समय में AI वॉइस टेक्नोलॉजी का एक बड़ा नाम बनने वाला है।

इस लॉन्च के साथ Microsoft ने Google और OpenAI जैसी कंपनियों को भी सीधी टक्कर दी है, क्योंकि Vibe Voice न केवल पॉडकास्ट बल्कि म्यूज़िक और नैचुरल कन्वर्सेशन जनरेशन में भी बेहतरीन क्षमता दिखा रहा है।