Project Indus: नया हिंदी AI मॉडल जो 37+ बोलियों को समझेगा और बोलेगा

Publish on - September 23, 2025

Akshay Barman

Tech Mahindra ने हाल ही में Project Indus नामक एक indigenous Large Language Model (LLM) लॉन्च किया है, जिसे खासतौर पर हिन्दी और 37 से ज़्यादा बोलियों (dialects) को समझने और बोलने के लिए तैयार किया गया है। इस मॉडल को “GenAI in a box” फ़्रेमवर्क के तहत विकसित किया गया है ताकि enterprises यानी कंपनियों को AI-मॉडल लगाना आसान हो जाए। मॉडल को Dell Technologies और Intel की इन्फ्रास्ट्रक्चर सहायता के साथ तैयार किया गया है, जिसमें Intel Xeon प्रोसेसर, OneAPI सॉफ़्टवेयर और अन्य CPU-features जैसे AMX शामिल हैं।

Igniting #AI Leadership Across @Tech_Mahindra Americas – SBU ASV ACCLAIM 2025 ✨

Tech Mahindra proudly celebrates the successful completion of the first-ever cohort of ASV ACCLAIM 2025 – a six-month journey that has shaped the next generation of AI leaders across the Americas… pic.twitter.com/403W5D7Mnh
— Tech Mahindra (@tech_mahindra) September 23, 2025

Project Indus का पहला चरण (Phase-1) पूरा होता है हिन्दी भाषा और उसकी विभिन्न बोलियों पर काम करके। बोलियाँ जैसे कि भोजपुरी, मवई, अंगिका, नागपुरी, खोरठा आदि को शामिल किया गया है, ताकि भाषा विविधता को पकड़ा जा सके और हिंदी-भाषी समुदायों की ज़रूरतों को बेहतर तरीके से समझा जा सके।

विकास (development) के समय मॉडल को लगभग 10 अरब टोकन्स (tokens) की ट्रेनिंग डेटा का इस्तेमाल करके तैयार किया गया है, जिसमें हिंदी व बोलियों का डेटा शामिल है, समाचार, किताबें, वेबसाइट स्रोत आदि। डेटा को साफ-सुथरा (clean), एनोटेटेड, अनचाहे टैग्स आदि से मुक्त किया गया है। ([Techcircle][2]) मॉडल में लगभग 539 मिलियन पैरामीटर्स हैं, जो कि बहुत बड़े मॉडल की तुलना में हल्का लेकिन काम के लिए उपयुक्त माना जा रहा है।

Project Indus मॉडल enterprise-use (उद्योगों में इस्तेमाल) के लिए भी तैयार है। उदाहरण के लिए ग्राहक सेवा (customer support), कंटेंट क्रिएशन, ग्रामीण शिक्षा, स्वास्थ्य सेवा, बैंकिंग & वित्त (banking & finance), कृषि (agriculture) और टेलीकॉम जैसे क्षेत्रों में इस मॉडल के उपयोग की संभावना है। ऐसा कहा गया है कि आने वाले समय में मॉडल के अगले संस्करणों में और भाषाएँ व बोलियाँ जोड़ी जाएँगी।

मॉडल की तैनाती (deployment) भी सोच-समझ कर की गई है – “GenAI in a box” नामक समाधान का उद्देश्य है कि कंपनियाँ आसानी से इस मॉडल को अपने सिस्टम्स में डाल सकें, जैसे कि अपने कस्टम AI-एप्लिकेशन, चैटबॉट, अथवा टेक्स्ट जेनरेशन टूल्स में। Dell की हाई-परफॉरमेंसिंग कम्प्यूटिंग सुविधाएँ, स्टोरेज-नेटवर्किंग इंफ्रा-स्ट्रक्चर और Intel के हार्डवेयर-सॉफ्टवेयर सॉल्यूशन्स इसको सक्षम बनाते हैं।

एक और महत्वपूर्ण बात है कि Project Indus को 내부 (beta) परीक्षण के दौर से गुज़ारा गया है, विशेष रूप से Tech Mahindra की Makers Lab टीम ने मॉडल को विकसित किया है। टीम ने डेटा संग्रह के लिए स्थानीय स्रोतों, क्षेत्रीय भाषा बोलियों के उपयोग, भाषा-भाषी समुदायों के योगदान आदि का सहारा लिया है जिससे मॉडल की भाषा-संवेदनशीलता बढ़ी है।

हालाँकि, कुछ चुनौतियाँ अभी भी हैं। मॉडल की सटीकता, विशेषकर बोलियों में, उसका व्यवहार वास्तविक उपयोग स्थितियों में कैसे होगा, उससे जुड़ी निगरानी ज़रूरी है। डेटा पूर्वाग्रह (bias) की संभावना को कम करने के लिए विशेष टूल्स और एनोटेशन प्रक्रिया लागू की जा रही है, लेकिन ये पूरी तरह समाप्त नहीं हुए हैं।

कुल मिलाकर Project Indus AI मॉडल भारत में भाषा-तकनीक (language tech) के क्षेत्र में एक महत्वपूर्ण कदम है। हिन्दी और उसकी बोलियों को शामिल करके यह मॉडल भाषा समावेशन (linguistic inclusion) की दिशा में काम कर रहा है। यदि मॉडल फिलहाल कंपनियों और उद्यमों में अच्छी तरह तैनात हो पाए, तो भारत की स्थानीय भाषाओं में AI अनुप्रयोगों (applications) का विस्तार बढ़ेगा।

🚀 India’s #LLM builders are rising! 🇮🇳✨@SarvamAI @Krutrim @tech_mahindra (Project Indus)@MultiplatformAI (Gyan AI – Paramanu)@uniphore @yellowdotai @bharat_gpt (CoRover)@GnaniAi
— Jagdish Rathore (@jagdishJR7) August 18, 2025