सस्ता टोकन का दावा करें रिजर्व का प्रमाण

UNC रिसर्चर्स ने AI पर की नई रिसर्च, डेटा हटाना मुश्किल

महत्वपूर्ण बिंदु
  • North Carolina की यूनिवर्सिटी Chapel Hill के साइंटिस्ट्स ने प्रीप्रिंट आर्टिफिशियल इंटेलिजेंस (AI) पर रिसर्च पब्लिश की है।
  • रिसर्चर्स का कहना है कि LLM पर पहले डेटा को टेक्निकल फॉर्म में तैयार और ट्रेन्ड किया जाता है और फिर रिलेवेंट आउटपुट उत्पन्न करने के लिए ठीक से ट्यून किया जाता है।
  • UNC रिसर्चर्स ने यह निष्कर्ष निकाला है कि स्टेट ऑफ द आर्ट मॉडल एडिटिंग मैथड LLM से फैक्चुअल इन्फोर्मेशन की पूरी तरह से जानकारी हटाने में विफल रहती है।
03-Oct-2023 By: Deeksha
UNC रिसर्चर्स ने AI

AI पर Chapel Hill साइंटिस्ट ने पब्लिश की नई रिसर्च

AI का लगातार विस्तार बढ़ने से अलग-अलग कंपनीज, देश और प्लेटफॉर्म्स इस पर नई योजनाओं के साथ कई टूल लॉन्च कर रहे हैं। इसी के साथ AI पर प्रत्येक दिन नई रिसर्च की जा रही है। हाल ही में North Carolina की यूनिवर्सिटी Chapel Hill के साइंटिस्ट्स ने प्रीप्रिंट आर्टिफिशियल इंटेलिजेंस (AI) पर रिसर्च पब्लिश की है। इस रिसर्च में दिखाया गया है कि OpenAI के ChatGPT और Googlebard के बोर्ड जैसे बड़े लैंग्वेज मॉडल (LLM) से सेंसिटिव डेटा को हटाना कितना मुश्किल है। रिसर्चर के पेपर के अनुसार, LLM से जानकारी को हटाने का कार्य संभंव है, लेकिन यह वेरिफाई करना उतना ही कठिन है कि जानकारी वास्तव में हटा दी गई है। 

LLM पर डेटा को पहले किया जाता है ट्रेन्ड

रिसर्चर्स का कहना है कि LLM पर पहले डेटा को टेक्निकल फॉर्म में तैयार एवं ट्रेन्ड किया जाता है और फिर रिलेवेंट आउटपुट उत्पन्न करने के लिए ठीक से ट्यून किया जाता है। एक बार जब कोई मॉडल ट्रेन्ड हो जाता है, तो इसके मेकर्स उदाहरण के लिए डेटाबेस में वापस नहीं जा सकते हैं और मॉडल को संबंधित परिणाम देने से रोकने के लिए स्पेशल फाइल्स को हटा नहीं सकते हैं। अनिवार्य रूप से किसी मॉडल को ट्रेन्ड की जाने वाली सभी इन्फोर्मेंशन उसके वजन और मापदंडो के अंदर कहीं मौजूद होती है, जहां वे वास्तव में आउटपुट उत्पन्न किए बिना अपरिभाषित होते हैं। इस प्रोसेसिंग को AI ब्लॉक्स कहा जाता है। लेकिन एक बड़ी समस्या उस समय शुरू होती है, जब बड़े पैमाने पर डेटाबेस पर ट्रेन्ड LLM सेंसिटिव इन्फोर्मेशन जैसे- पर्सनल आइडेंटिकल इन्फोर्मेशन, फाइनेंस रिकॉर्ड या अदर पोटेंशियली हार्मफुल और अनवांटेड आउटपुट जनरेट करते हैं। 

रिसर्च टीम ने अपनी रिसर्च में GPT-J का किया था इस्तेमाल

UNC रिसर्चर्स ने यह निष्कर्ष निकाला है कि स्टेट ऑफ द आर्ट मॉडल एडिटिंग मैथड LLM से फैक्चुअल इनफार्मेशन की पूरी तरह से जानकारी हटाने में विफल रहती है, क्योंकि 38% मामलों में फैक्ट अभी भी व्हाइटबॉक्स अटैक्स द्वारा निकाले जा सकते हैं और 29% फैक्ट बार ब्लैकबॉक्स अटैक्स के माध्यम से निकाले जा सकते हैं। दरअसल रिसर्च टीम ने अपनी रिसर्च करने के लिए जिस मॉडल का इस्तेमाल किया था, उसे GPT-J कहा जाता है। जबकि GPT-J3.5, ChatGPT को पॉवर देने वाले बेस मॉडल्स में से एक 170 Billion पैरामीटर्स के साथ फाइन-ट्यून किया गया था। लेकिन GPT-J में केवल 6 Billion ही है। इसका मतलब यह हुआ है कि GPT-J3.5 जैसे LLM पर अनवांटेड डेटा को खोजने और खत्म करने की समस्या एक छोटे मॉडल की तुलना में कई गुना मुश्किल है। इसी के साथ रिसर्चर्स ने बताया है कि सेंसिटिव इनफार्मेशन को हटाने की समस्या वहां हो सकती है, जहां डिफेंस मैथड हमेशा नए अटैक्स के तरीकों को पकड़ने की भूमिका निभा रही है।

ये भी पढ़े- ब्लॉकचेन एनालिटिक्स फर्म Chainalysis ने की 15% एम्प्लाइज की छंटनी

व्हाट यूअर ओपिनियन
सम्बंधित खबर
संबंधित ब्लॉग
`