आज के समय में डॉक्यूमेंट एनालिसिस और OCR (Optical Character Recognition) टेक्नोलॉजी बहुत तेजी से बदल रही है। अब तक बड़े-बड़े AI मॉडल्स को ही स्टेट-ऑफ-द-आर्ट परफॉर्मेंस का क्रेडिट मिलता था, लेकिन Rednote Hi Lab का नया dots.ocr गेम पूरी तरह बदल रहा है। यह मॉडल सिर्फ़ 1.7 बिलियन पैरामीटर का है, लेकिन इसकी परफॉर्मेंस ने 72 बिलियन पैरामीटर तक के बड़े मॉडलों को भी पीछे छोड़ दिया है।
Everyone is sleeping on this new OCR model!
— Akshay 🚀 (@akshay_pachaar) August 16, 2025
dots-ocr is a new 1.7B vision-language model that achieves SOTA performance on multilingual document parsing.
– Supports 100+ languages
– Works with both images and PDFs
– Handles text, tables, formulas seamlessly
100% open-source. pic.twitter.com/xocNfgZz0c
100+ भाषाओं में सपोर्ट
Dots.OCR की सबसे खास बात इसका मल्टी-लैंग्वेज सपोर्ट है। यह मॉडल 100 से ज़्यादा भाषाओं में डॉक्यूमेंट्स को आसानी से पढ़ सकता है। सिर्फ़ टेक्स्ट ही नहीं बल्कि PDFs, टेबल्स और फॉर्मूलाज तक की पहचान यह बेहद सटीक तरीके से करता है।
इससे उन भाषाओं को भी फायदा होगा जिन्हें अब तक low-resource languages माना जाता था। जहां बड़े AI मॉडल्स भी ठीक से काम नहीं कर पाते, वहां dots.ocr बहुत बेहतर रिज़ल्ट दे रहा है।
छोटे साइज में बड़ा कमाल
आमतौर पर AI की दुनिया में यह माना जाता है कि जितना बड़ा मॉडल, उतनी बेहतर परफॉर्मेंस। लेकिन dots.ocr ने इस धारणा को तोड़ दिया है। 1.7B पैरामीटर वाला यह छोटा मॉडल benchmark tests पर कई बड़े मॉडलों को पछाड़ चुका है।
Text recognition, formula detection और document parsing जैसे टास्क में यह मॉडल state-of-the-art परफॉर्मेंस दिखा रहा है।
यूनिफाइड विज़न-लैंग्वेज अप्रोच
जहां कई कंपनियां अलग-अलग टास्क के लिए अलग-अलग मॉडल इस्तेमाल करती हैं, वहीं dots.ocr एक यूनिफाइड विज़न-लैंग्वेज मॉडल पर आधारित है। यानी एक ही मॉडल से आप टेक्स्ट-ओनली OCR, टेबल रिकग्निशन, फॉर्मूला डिटेक्शन, या फिर bounding box के जरिए region grounding जैसे टास्क कर सकते हैं।
इसका फायदा यह है कि डेवलपर्स और रिसर्चर्स को हर काम के लिए अलग-अलग मॉडल ट्रेन्ड करने की ज़रूरत नहीं होगी।
ओपन सोर्स ताकत
Dots.OCR को ओपन-सोर्स किया गया है, जिससे यह दुनिया भर के डेवलपर्स और रिसर्चर्स के लिए बेहद उपयोगी बन जाता है। कोई भी इसे फ्री में इस्तेमाल कर सकता है और अपनी जरूरतों के हिसाब से कस्टमाइज़ कर सकता है।
यह मॉडल AI-आधारित डॉक्यूमेंट एनालिसिस को डेमोक्रेटाइज करने में मदद करेगा। यानी सिर्फ़ इंग्लिश या हाई-रिसोर्स भाषाओं तक सीमित न रहकर अब लोकल भाषाओं और छोटे रिसोर्स वाले देशों में भी लोग इस टेक्नोलॉजी का लाभ ले पाएंगे।
क्यों है यह मॉडल खास?
- सिर्फ़ 1.7B पैरामीटर होने के बावजूद बड़े मॉडलों को पछाड़ता है।
- 100+ भाषाओं में टेक्स्ट, टेबल और फॉर्मूला रिकग्निशन करता है।
- लो-रिसोर्स भाषाओं के लिए भी बेस्ट परफॉर्मेंस देता है।
- यूनिफाइड विज़न-लैंग्वेज अप्रोच पर आधारित है।
- ओपन सोर्स है और फ्री में उपलब्ध है।
भविष्य पर असर
Dots.OCR जैसे मॉडल यह साबित करते हैं कि AI में हमेशा बड़ा होना ही सब कुछ नहीं होता। छोटे और स्मार्ट मॉडल भी कम संसाधनों में बेहतर काम कर सकते हैं। आने वाले समय में यह टेक्नोलॉजी शिक्षा, रिसर्च, गवर्नेंस और पब्लिक सर्विसेज जैसे कई क्षेत्रों में क्रांति ला सकती है।
खासतौर पर उन देशों में जहां लोकल भाषाओं में डिजिटाइजेशन अभी उतना तेज़ नहीं है, वहां dots.ocr जैसी टेक्नोलॉजी एक गेम-चेंजर साबित हो सकती है।