Dots.OCR: 1.7B पैरामीटर वाला AI मॉडल जिसने 72B तक के दिग्गजों को पछाड़ा

Publish on - August 17, 2025

Akshay Barman

आज के समय में डॉक्यूमेंट एनालिसिस और OCR (Optical Character Recognition) टेक्नोलॉजी बहुत तेजी से बदल रही है। अब तक बड़े-बड़े AI मॉडल्स को ही स्टेट-ऑफ-द-आर्ट परफॉर्मेंस का क्रेडिट मिलता था, लेकिन Rednote Hi Lab का नया dots.ocr गेम पूरी तरह बदल रहा है। यह मॉडल सिर्फ़ 1.7 बिलियन पैरामीटर का है, लेकिन इसकी परफॉर्मेंस ने 72 बिलियन पैरामीटर तक के बड़े मॉडलों को भी पीछे छोड़ दिया है।

Everyone is sleeping on this new OCR model!

dots-ocr is a new 1.7B vision-language model that achieves SOTA performance on multilingual document parsing.

– Supports 100+ languages
– Works with both images and PDFs
– Handles text, tables, formulas seamlessly

100% open-source. pic.twitter.com/xocNfgZz0c
— Akshay 🚀 (@akshay_pachaar) August 16, 2025

100+ भाषाओं में सपोर्ट

Dots.OCR की सबसे खास बात इसका मल्टी-लैंग्वेज सपोर्ट है। यह मॉडल 100 से ज़्यादा भाषाओं में डॉक्यूमेंट्स को आसानी से पढ़ सकता है। सिर्फ़ टेक्स्ट ही नहीं बल्कि PDFs, टेबल्स और फॉर्मूलाज तक की पहचान यह बेहद सटीक तरीके से करता है।

इससे उन भाषाओं को भी फायदा होगा जिन्हें अब तक low-resource languages माना जाता था। जहां बड़े AI मॉडल्स भी ठीक से काम नहीं कर पाते, वहां dots.ocr बहुत बेहतर रिज़ल्ट दे रहा है।

छोटे साइज में बड़ा कमाल

आमतौर पर AI की दुनिया में यह माना जाता है कि जितना बड़ा मॉडल, उतनी बेहतर परफॉर्मेंस। लेकिन dots.ocr ने इस धारणा को तोड़ दिया है। 1.7B पैरामीटर वाला यह छोटा मॉडल benchmark tests पर कई बड़े मॉडलों को पछाड़ चुका है।

Text recognition, formula detection और document parsing जैसे टास्क में यह मॉडल state-of-the-art परफॉर्मेंस दिखा रहा है।

यूनिफाइड विज़न-लैंग्वेज अप्रोच

जहां कई कंपनियां अलग-अलग टास्क के लिए अलग-अलग मॉडल इस्तेमाल करती हैं, वहीं dots.ocr एक यूनिफाइड विज़न-लैंग्वेज मॉडल पर आधारित है। यानी एक ही मॉडल से आप टेक्स्ट-ओनली OCR, टेबल रिकग्निशन, फॉर्मूला डिटेक्शन, या फिर bounding box के जरिए region grounding जैसे टास्क कर सकते हैं।

इसका फायदा यह है कि डेवलपर्स और रिसर्चर्स को हर काम के लिए अलग-अलग मॉडल ट्रेन्ड करने की ज़रूरत नहीं होगी।

ओपन सोर्स ताकत

Dots.OCR को ओपन-सोर्स किया गया है, जिससे यह दुनिया भर के डेवलपर्स और रिसर्चर्स के लिए बेहद उपयोगी बन जाता है। कोई भी इसे फ्री में इस्तेमाल कर सकता है और अपनी जरूरतों के हिसाब से कस्टमाइज़ कर सकता है।

यह मॉडल AI-आधारित डॉक्यूमेंट एनालिसिस को डेमोक्रेटाइज करने में मदद करेगा। यानी सिर्फ़ इंग्लिश या हाई-रिसोर्स भाषाओं तक सीमित न रहकर अब लोकल भाषाओं और छोटे रिसोर्स वाले देशों में भी लोग इस टेक्नोलॉजी का लाभ ले पाएंगे।

क्यों है यह मॉडल खास?

सिर्फ़ 1.7B पैरामीटर होने के बावजूद बड़े मॉडलों को पछाड़ता है।
100+ भाषाओं में टेक्स्ट, टेबल और फॉर्मूला रिकग्निशन करता है।
लो-रिसोर्स भाषाओं के लिए भी बेस्ट परफॉर्मेंस देता है।
यूनिफाइड विज़न-लैंग्वेज अप्रोच पर आधारित है।
ओपन सोर्स है और फ्री में उपलब्ध है।

भविष्य पर असर

Dots.OCR जैसे मॉडल यह साबित करते हैं कि AI में हमेशा बड़ा होना ही सब कुछ नहीं होता। छोटे और स्मार्ट मॉडल भी कम संसाधनों में बेहतर काम कर सकते हैं। आने वाले समय में यह टेक्नोलॉजी शिक्षा, रिसर्च, गवर्नेंस और पब्लिक सर्विसेज जैसे कई क्षेत्रों में क्रांति ला सकती है।

खासतौर पर उन देशों में जहां लोकल भाषाओं में डिजिटाइजेशन अभी उतना तेज़ नहीं है, वहां dots.ocr जैसी टेक्नोलॉजी एक गेम-चेंजर साबित हो सकती है।