Project Indus: नया हिंदी AI मॉडल जो 37+ बोलियों को समझेगा और बोलेगा

Tech Mahindra ने हाल ही में Project Indus नामक एक indigenous Large Language Model (LLM) लॉन्च किया है, जिसे खासतौर पर हिन्दी और 37 से ज़्यादा बोलियों (dialects) को समझने और बोलने के लिए तैयार किया गया है। इस मॉडल को “GenAI in a box” फ़्रेमवर्क के तहत विकसित किया गया है ताकि enterprises यानी कंपनियों को AI-मॉडल लगाना आसान हो जाए। मॉडल को Dell Technologies और Intel की इन्फ्रास्ट्रक्चर सहायता के साथ तैयार किया गया है, जिसमें Intel Xeon प्रोसेसर, OneAPI सॉफ़्टवेयर और अन्य CPU-features जैसे AMX शामिल हैं।

Project Indus का पहला चरण (Phase-1) पूरा होता है हिन्दी भाषा और उसकी विभिन्न बोलियों पर काम करके। बोलियाँ जैसे कि भोजपुरी, मवई, अंगिका, नागपुरी, खोरठा आदि को शामिल किया गया है, ताकि भाषा विविधता को पकड़ा जा सके और हिंदी-भाषी समुदायों की ज़रूरतों को बेहतर तरीके से समझा जा सके।

विकास (development) के समय मॉडल को लगभग 10 अरब टोकन्स (tokens) की ट्रेनिंग डेटा का इस्तेमाल करके तैयार किया गया है, जिसमें हिंदी व बोलियों का डेटा शामिल है, समाचार, किताबें, वेबसाइट स्रोत आदि। डेटा को साफ-सुथरा (clean), एनोटेटेड, अनचाहे टैग्स आदि से मुक्त किया गया है। ([Techcircle][2]) मॉडल में लगभग 539 मिलियन पैरामीटर्स हैं, जो कि बहुत बड़े मॉडल की तुलना में हल्का लेकिन काम के लिए उपयुक्त माना जा रहा है।

Project Indus मॉडल enterprise-use (उद्योगों में इस्तेमाल) के लिए भी तैयार है। उदाहरण के लिए ग्राहक सेवा (customer support), कंटेंट क्रिएशन, ग्रामीण शिक्षा, स्वास्थ्य सेवा, बैंकिंग & वित्त (banking & finance), कृषि (agriculture) और टेलीकॉम जैसे क्षेत्रों में इस मॉडल के उपयोग की संभावना है। ऐसा कहा गया है कि आने वाले समय में मॉडल के अगले संस्करणों में और भाषाएँ व बोलियाँ जोड़ी जाएँगी।

मॉडल की तैनाती (deployment) भी सोच-समझ कर की गई है – “GenAI in a box” नामक समाधान का उद्देश्य है कि कंपनियाँ आसानी से इस मॉडल को अपने सिस्टम्स में डाल सकें, जैसे कि अपने कस्टम AI-एप्लिकेशन, चैटबॉट, अथवा टेक्स्ट जेनरेशन टूल्स में। Dell की हाई-परफॉरमेंसिंग कम्प्यूटिंग सुविधाएँ, स्टोरेज-नेटवर्किंग इंफ्रा-स्ट्रक्चर और Intel के हार्डवेयर-सॉफ्टवेयर सॉल्यूशन्स इसको सक्षम बनाते हैं।

एक और महत्वपूर्ण बात है कि Project Indus को 내부 (beta) परीक्षण के दौर से गुज़ारा गया है, विशेष रूप से Tech Mahindra की Makers Lab टीम ने मॉडल को विकसित किया है। टीम ने डेटा संग्रह के लिए स्थानीय स्रोतों, क्षेत्रीय भाषा बोलियों के उपयोग, भाषा-भाषी समुदायों के योगदान आदि का सहारा लिया है जिससे मॉडल की भाषा-संवेदनशीलता बढ़ी है।

हालाँकि, कुछ चुनौतियाँ अभी भी हैं। मॉडल की सटीकता, विशेषकर बोलियों में, उसका व्यवहार वास्तविक उपयोग स्थितियों में कैसे होगा, उससे जुड़ी निगरानी ज़रूरी है। डेटा पूर्वाग्रह (bias) की संभावना को कम करने के लिए विशेष टूल्स और एनोटेशन प्रक्रिया लागू की जा रही है, लेकिन ये पूरी तरह समाप्त नहीं हुए हैं।

कुल मिलाकर Project Indus AI मॉडल भारत में भाषा-तकनीक (language tech) के क्षेत्र में एक महत्वपूर्ण कदम है। हिन्दी और उसकी बोलियों को शामिल करके यह मॉडल भाषा समावेशन (linguistic inclusion) की दिशा में काम कर रहा है। यदि मॉडल फिलहाल कंपनियों और उद्यमों में अच्छी तरह तैनात हो पाए, तो भारत की स्थानीय भाषाओं में AI अनुप्रयोगों (applications) का विस्तार बढ़ेगा।

Read Also