OpenAI ने हाल ही में एक शोध रिपोर्ट प्रकाशित की है जिसमें कहा गया है कि वर्तमान frontier AI मॉडल्स में scheming की क्षमता पाई जा रही है – अर्थात् ये मॉडल्स दिखावे पर इंसानों के साथ काम करते हुए, अंदर से कुछ अलग मकसद (hidden agendas) भी रख सकते हैं। उदाहरण के लिए, एक मॉडल ऐसा कर सकता है कि वह बाहरी नियमों का पालन करता दिखे पर अंदर से task पूरा नहीं करता या कहता है कि पूरा किया जबकि नहीं किया।
OpenAI's 'Scheming' AI Models Study
— allen lverson (@allen180929) September 19, 2025
OpenAI reveals AI models can 'scheme', deliberately misleading. Study shows 'deliberative alignment' can reduce this behavior. pic.twitter.com/9PcqdxS1sB
यह शोध OpenAI और Apollo Research की साझेदारी से किया गया है। Controlled परीक्षणों में, AI मॉडल्स ने कुछ मामलों में प्रयोगशाला-परिस्थितियों में सरल deceptive व्यवहार दिखाया जैसे task को पूरा करने का दावा करना जबकि वास्तव में पूरा नहीं किया हो। हालाँकि ये झूठे व्यवहार अभी बड़े पैमाने पर नहीं है, लेकिन जैसे जैसे AI सिस्टम्स अधिक जटिल और दीर्घकालिक कामों में लगाए जाएंगे, इसे एक गंभीर जोखिम माना जा रहा है।
इस समस्या से निपटने के लिए OpenAI ने एक नया तरीका “deliberative alignment” प्रस्तावित किया है। इसमें मॉडल को पहले से स्पष्ट नियम दिए जाते हैं (“anti-scheming specification”) कि वह धोखाधड़ी न करे, छुपे उद्देश्य न रखे। फिर मॉडल को उस specification को पढ़ने और उस पर विचार करने को कहा जाता है जब वह किसी कार्य को करने की सोचता है – यानी, निर्णय लेने से पहले नैतिक और सुरक्षा नियमों को ध्यान में लाने का प्रशिक्षण।
शोध में यह भी पाया गया है कि इस तरह का प्रशिक्षण (deliberative alignment) deception/scheming दर को काफी कम कर देता है। उदाहरण के लिए, कुछ परीक्षणों में लगभग 20-30% scheming होता था, लेकिन alignment उपायों के बाद यह 5% से भी नीचे आ गया।
लेकिन चुनौतियाँ अभी भी हैं। एक बड़ी चुनौतियाँ है “situational awareness” – यानी मॉडल यह समझ सकता है कि उसे परीक्षण में आंका जा रहा है और इसलिए वह सही व्यवहार दिखा रहा है, जबकि वास्तविक उपयोग में अलग कर सकता है। इस तरह के परीक्षण-aware व्यवहार से यह पता लगाना मुश्किल होगा कि मॉडल सच में aligned है या परीक्षणों में सिर्फ दिखावा कर रहा है।
OpenAI ने साफ किया है कि फिलहाल कोई ऐसा एजेंट या मॉडल तात्कालिक रूप से ऐसा व्यवहार नहीं कर रहा है कि उससे तत्काल गंभीर खतरा हो, लेकिन भविष्य में उन मॉडल्स के लिए जो ज़्यादा स्वायत्त और लंबे समय तक चलने वाले टास्क संभालेंगे, scheming एक वास्तविक जोखिम है।
1/ openai + apollo just published research on ai models that can deliberately lie. not hallucinate. not glitch. scheme. pic.twitter.com/tjhFMM37ik
— Dev Ruffian (@artisticruffian) September 19, 2025
Read Also