India में AI-भाषाई तकनीक अब सिर्फ़ बड़े मॉडल तक सीमित नहीं है। छोटे-मध्यम आकार के Small Language Models (SLMs) तीव्र गति से उभर रहे हैं, खासकर उन भाषाओं के लिए जो अंग्रेज़ी के बाद कम-पहचानी जाती हैं जैसे हिंदी, तमिल, बंगाली, मराठी, गुजराती आदि। SLMs मुख्यतः कम संसाधन (computational power), कम डेटा की ज़रूरत, और तेजी से काम करने के उद्देश्यों के लिए बनाए जाते हैं। ये मॉडल्स मोबाइल, ऑफलाइन या एज-डिवाइस (on-device) एप्लिकेशन, चैटबॉट, अनुवाद, सारांश, बोलचाल की भाषा समझ आदि के लिए उपयुक्त हैं।
एक प्रमुख उदाहरण है Pragna-1B मॉडल, जिसे Soket AI Labs ने बनाया है। यह लगभग 1.25 बिलियन पैरामीटर्स का मॉडल है, और यह हिंदी, बंगाली, गुजराती और अंग्रेज़ी भाषाओं में काम करता है। इसके डेटा में लगभग 150 अरब टोकन (tokens) का प्रशिक्षण शामिल है, और इसे खासतौर पर भारतीय संदर्भों के लिए तैयार किया गया है। इसे छोटे संसाधनों (कम GPU, कम मेमोरी) में चलाने के लिए डिज़ाइन किया गया है, जिससे किसानों, छात्रों या छोटे व्यवसायों को भी इसकी पहुँच हो सके।
Did you know?
— bitDeep (@Kavi20713988613) September 19, 2025
A significant trend is the move away from purely cloud-based AI. The development of more efficient and powerful "Small Language Models" (SLMs) is enabling sophisticated AI to run directly on personal devices like smartphones and laptops. This promises faster… pic.twitter.com/fPF5K5DhxD
एक और है BharatGPT Mini, जिसे CoRover ने लॉन्च किया है। यह भी एक SLM है जिसमें लगभग 534 मिलियन पैरामीटर्स हैं और यह 14 Indic भाषाएँ टेक्स्ट-इन और टेक्स्ट-आउट दोनों तरह से सपोर्ट करती है। इसका मकसद है कि भारत में उन इलाकों तक AI पहुंचे जहाँ इंटरनेट कनेक्शन धीमा हो या डेटा लागत ज़्यादा हो। ऑफलाइन या सीमित नेटवर्क कंडीशन्स में ये मॉडल काम आ सकते हैं।
तीसरा उदाहरण है Sarvam-2B, Bengaluru की कंपनी Sarvam AI का मॉडल, जिसमें लगभग 2 अरब पैरामीटर्स हैं। यह मॉडल 10 Indic भाषाओं में ट्रेन किया गया है, जैसे- हिंदी, तमिल, तेलुगु, मलयालम, पंजाबी, मराठी, आदि। Sarvam-2B खुला स्रोत (open source) है और इसका उपयोग अनुवाद, लेखन, चैटबॉट जैसे अनुप्रयोगों में हो रहा है।
“Paramanu” नामक परिवार है Gyan AI Research का, जो बहुत छोटे-छोटे मॉडल्स बनाता है। ये मॉडल्स कुछ लाख से कुछ करोड़ पैरामीटर्स के बीच हैं, जैसे Hindi, Bangla, Marathi, Tamil, Telugu आदि भाषाओं में। इनका उद्देश्य है कम हार्डवेयर उपयोग में भी सटीक और प्राकृतिक भाषा क्षमता देना।
SLMs के फायदे कई हैं- कम लागत, तेज़ प्रतिक्रिया समय (latency), मोबाइल और एज-डिवाइस पर काम करना, स्थानीय भाषा और बोली (dialect) में बेहतर समझ। उदाहरण के लिए, Nemotron-Mini-Hindi-4B जैसा मॉडल NVIDIA ने पेश किया है, जिसमें लगभग 4 अरब पैरामीटर्स हैं। यह मॉडल हिंदी और अंग्रेज़ी दोनों भाषाओं में काम करता है और छोटे-बड़े अनुप्रयोगों में इस्तेमाल होने योग्य है।
लेकिन चुनौतियाँ भी कम नहीं हैं। सबसे बड़ी समस्या है डेटा की कमी-बहुत सी Indic भाषाओं के लिए पर्याप्त साफ़-सुथरा, विविध और उच्च-गुणवत्ता वाला डेटा नहीं है। इसके अलावा, मॉडल का संस्कृतियों और बोलीभाषाओं (dialects) का अंतर नज़रअंदाज़ हो सकता है, जिसके कारण आउटपुट बेतरतीब या असामान्य हो सकता है। मॉडल की सत्यता (factuality), ग़लती नियंत्रण (error control), और सुरक्षा (safety, bias mitigation) सुनिश्चित करना ज़रूरी है। जब मॉडल छोटे हों, संसाधन सीमित हों, तो ये चुनौतियाँ और बड़ी हो जाती हैं।
भविष्य की दिशा में ये देखना होगा कि SLMs किस तरह से एज-डिवाइस AI, ऑफलाइन कार्यप्रणाली, शिक्षा और स्थानीय भाषा सेवाओं में निर्णायक भूमिका निभाएँ। सरकारी नीति, भाषा संसाधन निधि, खुला डेटा (open datasets), समुदाय की भागीदारी (community involvement) सभी महत्वपूर्ण होंगे। सफल मॉडल वही होंगे जो भाषा, संस्कृति और स्थानीय ज़रूरतों को ठीक से समझें और छोटे संसाधनों में बेहतर प्रदर्शन करें।
संक्षेप में कहा जाए तो Indic SLMs अब एक ट्रेंड नहीं रहे, बल्कि ज़रूरत बन चुकी है। छोटे मॉडल भारतीय भाषाओं के लिए AI-क्रांति का रास्ता खोल रहे हैं-जहाँ भाषा बाधा नहीं बनेगी, बल्कि पुल बनेगी तकनीक और व्यक्ति के बीच।
We're launching Veena TTS 🪕 on June 20
— Dheemanth Reddy (@Dheemanthreddy_) June 9, 2025
Our flagship text-to-speech model for Indian languages 🇮🇳
Natural, expressive, and actually sounds like us.
We’re launching two models:
Veena Lite
>Open-source and lightweight
>4 unique, natural-sounding voices
>The first open-source… pic.twitter.com/iqjwci5y1M