Table of Contents
Alibaba की Tongyi Lab ने हाल ही में Wan2.2-S2V नाम का नया AI मॉडल लॉन्च किया है। यह एक 14 बिलियन पैरामीटर वाला ओपन-सोर्स AI मॉडल है, जो सिर्फ आवाज़ और तस्वीर की मदद से सिनेमा क्वालिटी वीडियो बना सकता है। मतलब अब अगर आपके पास किसी का फोटो और उसकी आवाज़ है, तो यह मॉडल उस इंसान का सिंक्ड वीडियो तैयार कर देगा जिसमें चेहरे के हाव-भाव, बॉडी मूवमेंट और कैमरा एंगल्स भी नेचुरल दिखेंगे।
🚀Introducing Wan2.2-S2V — a 14B parameter model designed for film-grade, audio-driven human animation. 🎬Going beyond basic talking heads to deliver professional-level quality for film, TV, and digital content. And it’s open-source!
— Wan (@Alibaba_Wan) August 26, 2025
✨ Key features:
🔹 Long-video dynamic… pic.twitter.com/yTevJrDWl5
यह मॉडल खासतौर पर फिल्म, टीवी और डिजिटल कंटेंट क्रिएटर्स के लिए बहुत मददगार हो सकता है, क्योंकि यह बिना बड़े प्रोडक्शन खर्च के हाई-क्वालिटी वीडियो बना देता है।
क्या-क्या कर सकता है Wan2.2-S2V?
- लंबा वीडियो भी बिना टूटे लगातार बना सकता है।
- चेहरे और बॉडी के मूवमेंट को असली जैसा दिखाता है।
- इंसानों के साथ-साथ एनिमेटेड कैरेक्टर पर भी काम करता है।
- बैकग्राउंड और थीम को भी कंट्रोल किया जा सकता है।

कैसे बना यह मॉडल?
यह मॉडल एक Mixture-of-Experts (MoE) आर्किटेक्चर पर बनाया गया है। इसमें कुल 27B पैरामीटर्स हैं, लेकिन हर स्टेप पर 14B एक्टिव रहते हैं। इसे पुराने वर्ज़न से ज्यादा डेटा पर ट्रेन किया गया है –
- 65.6% ज्यादा इमेजेज़
- 83.2% ज्यादा वीडियोस
इस डेटा को बड़े सोर्स जैसे OpenHumanVid और Koala36M से लिया गया और मैन्युअली क्यूरेट भी किया गया ताकि वीडियो क्वालिटी और भी बेहतर हो।
कितना अच्छा है ये मॉडल?
टेस्ट रिज़ल्ट्स में Wan2.2-S2V ने बाकी AI मॉडल्स को पीछे छोड़ दिया है।
- वीडियो क्वालिटी (FID स्कोर: 15.66)
- चेहरे के भावों की असलियत (EFID स्कोर: 0.283)
- पहचान की सही मैचिंग (CSIM स्कोर: 0.677)
यानी यह मॉडल सिर्फ छोटे-छोटे क्लिप्स ही नहीं बल्कि लंबे और स्मूद वीडियो भी बना सकता है। खास बात यह है कि इसे RTX 4090 जैसे कंज़्यूमर GPU पर भी 720P वीडियो बनाने के लिए आसानी से चलाया जा सकता है।
नतीजा
Alibaba का यह नया AI मॉडल वीडियो जनरेशन की दुनिया में एक बड़ी क्रांति ला सकता है। अब सिर्फ आवाज़ और फोटो से फिल्मी लेवल का वीडियो तैयार हो सकता है, जिससे कंटेंट क्रिएशन इंडस्ट्री का खर्च और समय दोनों काफी बच सकते हैं।
Read Also