AI का लगातार विस्तार बढ़ने से अलग-अलग कंपनीज, देश और प्लेटफॉर्म्स इस पर नई योजनाओं के साथ कई टूल लॉन्च कर रहे हैं। इसी के साथ AI पर प्रत्येक दिन नई रिसर्च की जा रही है। हाल ही में North Carolina की यूनिवर्सिटी Chapel Hill के साइंटिस्ट्स ने प्रीप्रिंट आर्टिफिशियल इंटेलिजेंस (AI) पर रिसर्च पब्लिश की है। इस रिसर्च में दिखाया गया है कि OpenAI के ChatGPT और Googlebard के बोर्ड जैसे बड़े लैंग्वेज मॉडल (LLM) से सेंसिटिव डेटा को हटाना कितना मुश्किल है। रिसर्चर के पेपर के अनुसार, LLM से जानकारी को हटाने का कार्य संभंव है, लेकिन यह वेरिफाई करना उतना ही कठिन है कि जानकारी वास्तव में हटा दी गई है।
रिसर्चर्स का कहना है कि LLM पर पहले डेटा को टेक्निकल फॉर्म में तैयार एवं ट्रेन्ड किया जाता है और फिर रिलेवेंट आउटपुट उत्पन्न करने के लिए ठीक से ट्यून किया जाता है। एक बार जब कोई मॉडल ट्रेन्ड हो जाता है, तो इसके मेकर्स उदाहरण के लिए डेटाबेस में वापस नहीं जा सकते हैं और मॉडल को संबंधित परिणाम देने से रोकने के लिए स्पेशल फाइल्स को हटा नहीं सकते हैं। अनिवार्य रूप से किसी मॉडल को ट्रेन्ड की जाने वाली सभी इन्फोर्मेंशन उसके वजन और मापदंडो के अंदर कहीं मौजूद होती है, जहां वे वास्तव में आउटपुट उत्पन्न किए बिना अपरिभाषित होते हैं। इस प्रोसेसिंग को AI ब्लॉक्स कहा जाता है। लेकिन एक बड़ी समस्या उस समय शुरू होती है, जब बड़े पैमाने पर डेटाबेस पर ट्रेन्ड LLM सेंसिटिव इन्फोर्मेशन जैसे- पर्सनल आइडेंटिकल इन्फोर्मेशन, फाइनेंस रिकॉर्ड या अदर पोटेंशियली हार्मफुल और अनवांटेड आउटपुट जनरेट करते हैं।
UNC रिसर्चर्स ने यह निष्कर्ष निकाला है कि स्टेट ऑफ द आर्ट मॉडल एडिटिंग मैथड LLM से फैक्चुअल इनफार्मेशन की पूरी तरह से जानकारी हटाने में विफल रहती है, क्योंकि 38% मामलों में फैक्ट अभी भी व्हाइटबॉक्स अटैक्स द्वारा निकाले जा सकते हैं और 29% फैक्ट बार ब्लैकबॉक्स अटैक्स के माध्यम से निकाले जा सकते हैं। दरअसल रिसर्च टीम ने अपनी रिसर्च करने के लिए जिस मॉडल का इस्तेमाल किया था, उसे GPT-J कहा जाता है। जबकि GPT-J3.5, ChatGPT को पॉवर देने वाले बेस मॉडल्स में से एक 170 Billion पैरामीटर्स के साथ फाइन-ट्यून किया गया था। लेकिन GPT-J में केवल 6 Billion ही है। इसका मतलब यह हुआ है कि GPT-J3.5 जैसे LLM पर अनवांटेड डेटा को खोजने और खत्म करने की समस्या एक छोटे मॉडल की तुलना में कई गुना मुश्किल है। इसी के साथ रिसर्चर्स ने बताया है कि सेंसिटिव इनफार्मेशन को हटाने की समस्या वहां हो सकती है, जहां डिफेंस मैथड हमेशा नए अटैक्स के तरीकों को पकड़ने की भूमिका निभा रही है।
ये भी पढ़े- ब्लॉकचेन एनालिटिक्स फर्म Chainalysis ने की 15% एम्प्लाइज की छंटनी