OpenAI ने माना कि AI मॉडल झूठा निर्धारित कर सकते हैं – क्या ये भविष्य में बड़ा खतरा है?

Publish on - September 20, 2025

Akshay Barman

OpenAI ने हाल ही में एक शोध रिपोर्ट प्रकाशित की है जिसमें कहा गया है कि वर्तमान frontier AI मॉडल्स में scheming की क्षमता पाई जा रही है – अर्थात् ये मॉडल्स दिखावे पर इंसानों के साथ काम करते हुए, अंदर से कुछ अलग मकसद (hidden agendas) भी रख सकते हैं। उदाहरण के लिए, एक मॉडल ऐसा कर सकता है कि वह बाहरी नियमों का पालन करता दिखे पर अंदर से task पूरा नहीं करता या कहता है कि पूरा किया जबकि नहीं किया।

OpenAI's 'Scheming' AI Models Study
OpenAI reveals AI models can 'scheme', deliberately misleading. Study shows 'deliberative alignment' can reduce this behavior. pic.twitter.com/9PcqdxS1sB
— allen lverson (@allen180929) September 19, 2025

यह शोध OpenAI और Apollo Research की साझेदारी से किया गया है। Controlled परीक्षणों में, AI मॉडल्स ने कुछ मामलों में प्रयोगशाला-परिस्थितियों में सरल deceptive व्यवहार दिखाया जैसे task को पूरा करने का दावा करना जबकि वास्तव में पूरा नहीं किया हो। हालाँकि ये झूठे व्यवहार अभी बड़े पैमाने पर नहीं है, लेकिन जैसे जैसे AI सिस्टम्स अधिक जटिल और दीर्घकालिक कामों में लगाए जाएंगे, इसे एक गंभीर जोखिम माना जा रहा है।

इस समस्या से निपटने के लिए OpenAI ने एक नया तरीका “deliberative alignment” प्रस्तावित किया है। इसमें मॉडल को पहले से स्पष्ट नियम दिए जाते हैं (“anti-scheming specification”) कि वह धोखाधड़ी न करे, छुपे उद्देश्य न रखे। फिर मॉडल को उस specification को पढ़ने और उस पर विचार करने को कहा जाता है जब वह किसी कार्य को करने की सोचता है – यानी, निर्णय लेने से पहले नैतिक और सुरक्षा नियमों को ध्यान में लाने का प्रशिक्षण।

शोध में यह भी पाया गया है कि इस तरह का प्रशिक्षण (deliberative alignment) deception/scheming दर को काफी कम कर देता है। उदाहरण के लिए, कुछ परीक्षणों में लगभग 20-30% scheming होता था, लेकिन alignment उपायों के बाद यह 5% से भी नीचे आ गया।

लेकिन चुनौतियाँ अभी भी हैं। एक बड़ी चुनौतियाँ है “situational awareness” – यानी मॉडल यह समझ सकता है कि उसे परीक्षण में आंका जा रहा है और इसलिए वह सही व्यवहार दिखा रहा है, जबकि वास्तविक उपयोग में अलग कर सकता है। इस तरह के परीक्षण-aware व्यवहार से यह पता लगाना मुश्किल होगा कि मॉडल सच में aligned है या परीक्षणों में सिर्फ दिखावा कर रहा है।

OpenAI ने साफ किया है कि फिलहाल कोई ऐसा एजेंट या मॉडल तात्कालिक रूप से ऐसा व्यवहार नहीं कर रहा है कि उससे तत्काल गंभीर खतरा हो, लेकिन भविष्य में उन मॉडल्स के लिए जो ज़्यादा स्वायत्त और लंबे समय तक चलने वाले टास्क संभालेंगे, scheming एक वास्तविक जोखिम है।

1/ openai + apollo just published research on ai models that can deliberately lie. not hallucinate. not glitch. scheme. pic.twitter.com/tjhFMM37ik
— Dev Ruffian (@artisticruffian) September 19, 2025