कॉन्सेप्ट ड्रिफ्ट: एआई के लिए दुनिया बहुत तेजी से बदल रही है

हमारे आसपास की दुनिया की तरह, भाषा हमेशा बदलती रहती है। जबकि पिछले युगों में भाषा परिवर्तन वर्षों या दशकों में हुआ था, अब यह दिनों या घंटों के भीतर भी हो सकता है। सारा श्रेय सोशल मीडिया को।
आज अधिकांश विश्व और स्थानीय घटनाओं की रिपोर्ट सोशल मीडिया में पूरी तरह से की जाती है और पत्रकारों द्वारा पाठकों के उपभोग के लिए उन्हें समाचार लेखों में बदलने से बहुत पहले ही चर्चा की जाती है। इस प्रकार नए नियम और अवधारणाएं उभरती हैं और रूट स्तर पर पहले से ही तेजी से वायरल हो जाती हैं।
यूक्रेन में रूसी आक्रमण का जिज्ञासु मामला
ऐसी घटनाओं में से एक रुसो-यूक्रेनी युद्ध रहा है जहां कहीं और से पहले ट्विटर या टेलीग्राम पर ताजा फ्रंटलाइन जानकारी और फुटेज सामने आती है। जैसा कि ये गुरिल्ला स्रोत अक्सर किसी न किसी तरह से पक्षपाती होते हैं, वे संदेश की शब्दावली में एन्कोड किए गए एक भावनात्मक रुख को भी अपनाते हैं जो लाखों लोगों द्वारा ग्रहण किया जाएगा। इसलिए, जैसे ही युद्ध शुरू हुआ, सोशल मीडिया उपयोगकर्ताओं की भाषा में दैनिक आधार पर नए शब्द और अर्थ उभरने लगे।
उदाहरण के लिए, यूक्रेन में रूसी आक्रमण से पहले ओर्क्स फंतासी के दायरे में बने रहे थे, लेकिन आक्रमण की शुरुआत के बाद से यह रूसी सेना के सदस्यों का मज़ाक उड़ाने के लिए पश्चिमी सोशल मीडिया में सबसे लोकप्रिय पर्यायवाची बन गया है। और सिर्फ अंग्रेजी में ही नहीं...
Z-Orc — फिर भी 2022 से एक और नया शब्द।
रूस में सितंबर 2022 में सैन्य लामबंदी के पहले दिनों के दौरान रूस से ही एक नया शब्द उभरा - могилизация (लैटिनाइज़्ड मोगिलाइज़ेशन ) - जो कि एक रूसी शब्द का खेल है जिसमें могила (ग्रेव) और мобилизация (मिलिट्री मोबिलाइज़ेशन) शब्दों का इस्तेमाल किया जाता है ताकि भविष्य की संभावनाओं का संकेत दिया जा सके। नव लामबंद सैनिकों की। नया शब्द जल्दी से घंटों के भीतर अंग्रेजी के लिए अनुकूलित किया गया था और यहां तक कि एस्टोनियाई मीडिया में कुछ दिनों बाद बदल गया जब एक युद्ध ब्लॉगर ने जुटाए गए सैनिकों को surmmobiliseeritud (शाब्दिक मौत जुटाई ) के रूप में माना।
कब्जे वाली सेना के सदस्यों की तरह, कॉमरेड पुतिन ने भी आक्रमण के बाद से एक या दो उपनाम प्राप्त किए हैं: बंकर फ्यूहरर, पुटलर, लिटिल स्टालिन, पूटिन, आदि।
हेट स्पीच डिटेक्शन में कॉन्सेप्ट ड्रिफ्ट
टेक्स्ट एनालिटिक्स और मशीन लर्निंग में अभी-अभी वर्णित परिघटना — जिसे कॉन्सेप्ट ड्रिफ्ट कहा जाता है — एक वास्तविक समस्या बन जाती है, क्योंकि जिस चीज़ का हम अनुमान लगाने की कोशिश कर रहे हैं — भाषा — बहुत तेज़ी से बदल रही है और हमारे मॉडल परिवर्तनों के साथ नहीं रह सकते।
तो वास्तव में क्या बदलता है? बस कुछ नए शब्द? काफी नहीं…
किसी को एक निश्चित रूसी युद्धपोत कमांडर के मामले को याद हो सकता है जिसने खुद को बकवास करने के लिए कहा - Русский военный корабль, иди на хуй! उसके ठीक बाद एक बदलाव आया, जो "स्वीकार्य" है या नहीं। यह एक वास्तविक जीवन का मेम था जिसे औसत सोशल मीडिया उपयोगकर्ताओं और सबसे बड़े मीडिया निगमों दोनों द्वारा उठाया जा रहा था।
हमारा दैनिक संघर्ष
तो अचानक सोशल मीडिया में иди на хуй वाक्यांश का उपयोग करना ठीक हो गया? या किया? शायद किसी खास संदर्भ में? ये ऐसे प्रश्न हैं जो हमारे काम को दैनिक आधार पर चुनौतीपूर्ण और दिलचस्प दोनों बनाते हैं।
इसका अर्थ है कि घृणास्पद या जहरीली सामग्री का पता लगाते समय हमें लगातार दुनिया में क्या हो रहा है, इस पर नज़र रखनी होगी और अपने मशीन लर्निंग मॉडल में नए रुझानों, अवधारणाओं और दृष्टिकोणों को प्रतिबिंबित करने का प्रयास करना होगा। हम इसे समय-समय पर सोशल मीडिया टिप्पणियों की अपनी फ़ीड और हमारे लाइव मॉडल द्वारा उत्पादित भविष्यवाणियों का विश्लेषण करके करते हैं। वहां हम संभावित अवधारणा बहाव का पता लगाने के लिए गलत भविष्यवाणियों की तलाश करते हैं और अपने पूर्वानुमानित मॉडल के अगले संस्करणों के लिए नए सीखने के उदाहरण प्रदान करते हैं ताकि वे बदलती दुनिया के अनुकूल हो सकें।
एक अच्छा मशीन लर्निंग मॉडल जो दुनिया को पर्याप्त रूप से दर्शाता है, एक बढ़ते हुए बच्चे की तरह है जिसे नए अनुभवों को अधिक कुशलता से संभालने के लिए अक्सर अच्छे उदाहरणों और सही दिशा में कोमल कुहनी की आवश्यकता होती है।