कैसे कैम्ब्रिज एनालिटिका के फेसबुक लक्ष्यीकरण मॉडल वास्तव में काम कियाआप ऑनलाइन कैसे प्रमाणित हो सकते हैं? एंड्रयू कार्वोविटिक्की / शटरस्टॉक। Com

शोधकर्ता जिसका कार्य केंद्र के केंद्र में है फेसबुक-कैंब्रिज एनालिटिका डेटा विश्लेषण और राजनीतिक विज्ञापन घोटाला पता चला है कि उसकी विधि एक तरह बहुत काम किया है नेटफिक्स फिल्मों की सिफारिश करने के लिए उपयोग करता है.

मेरे लिए एक ईमेल में, कैम्ब्रिज यूनिवर्सिटी के विद्वान अलेक्जांद्र कोगन ने बताया कि उनके सांख्यिकीय मॉडल ने कैंब्रिज एनालिटिका के लिए फेसबुक डेटा कैसे संसाधित किया। वह दावा करता है कि सटीकता के बारे में और साथ ही काम करता है स्थापित मतदाता-लक्ष्यीकरण विधियां जनसंख्या, लिंग, आयु और लिंग जैसे पर आधारित

यदि पुष्टि की गई है, तो कॉग्न के खाते का मतलब होगा कि डिजिटल मॉडलिंग कैम्ब्रिज एनालिटिका का उपयोग किया गया था मुश्किल से आभासी क्रिस्टल बॉल कुछ लोगों ने दावा किया है। फिर भी संख्या कोगन प्रदान करता है भी दिखाओ क्या है - और नहीं है - वास्तव में संभव है by निजी डेटा के संयोजन मशीन सीखने के साथ राजनीतिक समाप्त होने के लिए

हालांकि, एक प्रमुख सार्वजनिक चिंता के बारे में, कोगन के आंकड़े बताते हैं कि उपयोगकर्ता के व्यक्तित्व या "psychographics"यह मॉडल का निशाना था कि मॉडल लक्षित नागरिक कैसे यह एक व्यक्तित्व मॉडल सख्ती से नहीं बोल रहा था, बल्कि वह एक है जो जनसांख्यिकी, सामाजिक प्रभाव, व्यक्तित्व और बाकी सब कुछ एक बड़े सहसंबद्ध गांठ में उबला हुआ था। यह सोख-अप-सभी-सह-संबंध-और-कॉल-इन-व्यक्तित्व दृष्टिकोण ने एक मूल्यवान अभियान उपकरण बना लिया है, भले ही उत्पाद बेची जा रहा हो, वह काफी बिलकुल नहीं था।


आंतरिक सदस्यता ग्राफिक


व्यक्तित्व लक्ष्यीकरण का वादा

ट्राइप अभियान सलाहकार कैम्ब्रिज एनालिटिका ने इस्तेमाल किए जाने वाले रहस्योद्घाटन के मद्देनजर 50 लाख फेसबुक उपयोगकर्ताओं का डेटा 2016 अमेरिकी राष्ट्रपति चुनाव के दौरान डिजिटल राजनीतिक विज्ञापन को लक्षित करने के लिए, फेसबुक ने शेयर बाजार मूल्य में अरबों खो दिया, पर सरकारें अटलांटिक के दोनों किनारों है खुली जांच, और एक नवजात सामाजिक आंदोलन उपयोगकर्ताओं के लिए कॉल कर रहा है #DeleteFacebook.

लेकिन एक महत्वपूर्ण सवाल अनुत्तरित रहा है: कैंब्रिज एनालिटिका वास्तव में अपने व्यक्तित्व विशेषताओं के आधार पर नागरिकों को अभियान संदेशों को प्रभावी ढंग से लक्षित करने में सक्षम हैं - या यहां तक ​​कि उनके "आंतरिक राक्षसों, "एक कंपनी के रूप में whistleblower आरोप लगाया?

अगर किसी को पता होगा कि कैंब्रिज एनालिटिका ने फेसबुक डेटा के विशाल रिवाज के साथ क्या किया है, तो यह अलेक्जेंडोन कोगन और यूसुफ चांसलर होगा। ये था उनके स्टार्टअप ग्लोबल साइंस रिसर्च उस से एकत्र की गई प्रोफ़ाइल जानकारी 270,000 फेसबुक उपयोगकर्ता और लाखों मित्रों के दसियों एक व्यक्तित्व परीक्षण एप्लिकेशन का उपयोग करते हुए "thisisyourdigitallife।"

के भाग मेरा अपना शोध समझने पर केंद्रित है यंत्र अधिगम तरीकों, और मेरी आगामी पुस्तक चर्चा करता है कि डिजिटल कंपनियां ऑडियंस बनाने के लिए सिफारिश मॉडल का उपयोग करती हैं। मुझे इस बारे में एक कगार था कि कैसे कोगन और चांसलर के मॉडल ने काम किया।

इसलिए मैंने कोगन को पूछने के लिए ईमेल किया कोगन अभी भी एक है कैम्ब्रिज यूनिवर्सिटी में शोधकर्ता; उनके सहयोगी चांसलर अब फेसबुक पर काम करता है। अकादमिक सौजन्य के एक उल्लेखनीय प्रदर्शन में, कोगन ने उत्तर दिया।

उनके जवाब के लिए कुछ अनपैकिंग की आवश्यकता है, और कुछ पृष्ठभूमि

Netflix पुरस्कार से "मनोचिकित्सा"

2006 में वापस, जब यह अभी भी एक डीवीडी-बाय-मेल कंपनी थी, तो नेटफ़्लिक्स ने एक की पेशकश की $ 1 लाख का इनाम जो कि पहले से ही कंपनी की तुलना में उपयोगकर्ताओं की फिल्म रैंकिंग के बारे में भविष्यवाणी करने का बेहतर तरीका विकसित करने वाले किसी भी व्यक्ति के लिए। एक आश्चर्यजनक शीर्ष प्रतियोगी एक था साइमन फंक नाम से छद्म नाम का स्वतंत्र सॉफ्टवेयर डेवलपर, जिनके बुनियादी दृष्टिकोण को अंततः सभी शीर्ष टीमों की प्रविष्टियों में शामिल किया गया था फंक ने एक तकनीक को "विलक्षण मान अपघटन, "फिल्मों की उपयोगकर्ताओं की रेटिंग को कंसेंसिंग में एक कारकों या घटकों की श्रृंखला - अनिवार्य रूप से अनुमानित श्रेणियों का एक समूह, महत्व द्वारा क्रमबद्ध। फंक के रूप में एक ब्लॉग पोस्ट में समझाया,

"इसलिए, उदाहरण के लिए, एक श्रेणी एक्शन फिल्मों का प्रतिनिधित्व कर सकती है, जिसमें शीर्ष पर बहुत सी कार्रवाई की जा रही फिल्मों और नीचे धीमे फिल्में हैं, और इसी प्रकार उपयोगकर्ता जो शीर्ष पर एक्शन फिल्मों की पसंद करते हैं और जो लोग धीमे फिल्मों को पसंद करते हैं तल।"

कारक कृत्रिम श्रेणियां हैं, जो हमेशा ऐसे प्रकार की श्रेणियों की तरह नहीं होते हैं, जिनके साथ इंसानों का अस्तित्व होगा। फंक के शुरुआती नेटफ्लिक्स मॉडल में सबसे महत्वपूर्ण कारक "पर्ल हार्बर" और "द वेडिंग प्लानर" जैसी फिल्मों को पसंद करने वाले उपयोगकर्ताओं द्वारा परिभाषित किया गया था, जबकि "लॉस्ट इन ट्रांसलेशन" या "एंडरॉन सनशाइन ऑफ स्पॉटलेस माइंड" जैसी फिल्में भी नफरत करते हैं। उनके मॉडल से पता चलता है कि मशीन सीखने के समूह के बीच सहसंबंध कैसे मिल सकते हैं। लोग, और फिल्मों के समूह, कि इंसान खुद को कभी नहीं हाजिर होगा

फंक के सामान्य दृष्टिकोण ने प्रयोक्ताओं और मूवीज दोनों के लिए 50 या 100 सबसे महत्वपूर्ण कारकों का इस्तेमाल किया है ताकि प्रत्येक उपयोगकर्ता हर फिल्म को कैसे रेट कर सकें। यह विधि, अक्सर कहा जाता है आयामी कमी या मैट्रिक्स फ़ैक्टरिकेशन, नया नहीं था राजनीति विज्ञान शोधकर्ताओं ने दिखाया था कि रोल-कॉल वोट डेटा का उपयोग करने वाली समान तकनीकों कांग्रेस के सदस्यों के वोटों का पूर्वानुमान 90 सटीकता के साथ कर सकता है मनोविज्ञान में "बडेपॉच"मॉडल का उपयोग व्यक्तित्व प्रश्नों को एकसाथ क्लस्टरिंग करके व्यवहार की भविष्यवाणी करने के लिए भी किया गया था जो इसी तरह उत्तर दिया गया था।

फिर भी, फ़ंक के मॉडल का एक बड़ा अग्रिम था: इस तकनीक ने बड़ी डेटा सेटों के साथ अच्छी तरह से काम करने की अनुमति दी, यहां तक ​​कि बहुत सारे डेटा युक्त डेटा - जैसे नेटफ्लिक्स डाटासेट, जहां एक ठेठ उपयोगकर्ता ने कंपनी के हजारों में केवल कुछ दर्जन फिल्मों का मूल्यांकन किया पुस्तकालय। Netflix पुरस्कार प्रतियोगिता समाप्त होने के एक दशक से अधिक, एसवीडी आधारित तरीकोंया, अंतर्निहित डेटा के लिए संबंधित मॉडल, अब भी कई वेबसाइटों के लिए पसंद का उपकरण यह अनुमान लगा सकते हैं कि उपयोगकर्ता क्या पढ़ेंगे, देखेंगे या खरीद लेंगे।

ये मॉडल अन्य चीजों की भविष्यवाणी भी कर सकते हैं

फेसबुक जानता है कि आप रिपब्लिकन हैं

2013 में, कैम्ब्रिज यूनिवर्सिटी के शोधकर्ताओं मीकल कोसिंस्की, डेविड स्टिलवेल और थोर गेपेेल ने एक लेख प्रकाशित किया फेसबुक डेटा की भविष्यवाणी शक्ति, एक ऑनलाइन व्यक्तित्व परीक्षण के माध्यम से एकत्रित जानकारी का उपयोग कर। उनका प्रारंभिक विश्लेषण लगभग समान था जो नेटफ्लिक्स पुरस्कार पर इस्तेमाल किया गया था, SVD का इस्तेमाल करके दोनों उपयोगकर्ताओं और चीजों को वर्गीकृत करने के लिए वे "पसंद" शीर्ष 100 कारकों में शामिल थे।

कागज से पता चलता है कि उपयोगकर्ताओं के फेसबुक "पसंद" के साथ एक कारक मॉडल अकेला था 95 प्रतिशत सटीक काले और सफेद उत्तरदाताओं के बीच भेद करने पर, महिलाओं से अलग-अलग पुरुषों में 93 प्रतिशत सटीक, और 88 प्रतिशत सटीक लोगों पर सटीक है, जो पुरुषों के समलैंगिक पुरुषों के रूप में पहचानते हैं जो सीधे रूप में पहचाने जाते हैं यह समय के डेमोक्रेट्स के 85 प्रतिशत से भी रिपब्लिकन को अलग-अलग भेद कर सकता है। यह भी उपयोगी था, हालांकि सटीक नहीं, के लिए उपयोगकर्ताओं के स्कोर की भविष्यवाणी करना "बिग फाइव" व्यक्तित्व परीक्षण पर

वहाँ था सार्वजनिक विरोध जवाब में; हफ्तों के भीतर फेसबुक था ने उपयोगकर्ताओं को निजी पसंद किया डिफ़ॉल्ट रूप से

कोगन और चांसलर, उस समय के कैम्ब्रिज यूनिवर्सिटी के शोधकर्ताओं ने कैंब्रिज एनालिटिका की पैरेंट फर्म एससीएल के साथ मिलकर चुनाव लक्ष्यीकरण के लिए फेसबुक डेटा का इस्तेमाल करना शुरू कर दिया था। कोगन ने अपनी परियोजना में शामिल होने के लिए कोसिन्सकी और स्टॉलवेल को आमंत्रित किया था, लेकिन यह बाहर काम नहीं किया। कोसिन्सकी ने कथित तौर पर कोगन और चांसलर पर संदेह हो सकता है फेसबुक "पसंद" मॉडल को रिवर्स-इंजीनियर बनाया गया कैम्ब्रिज एनालिटिका के लिए कोगन ने इस बात से इनकार करते हुए कहा कि उनकी परियोजना "हमारे सभी मॉडलों का निर्माण किया अपने खुद के सॉफ्टवेयर का उपयोग करते हुए हमारे अपने डेटा का उपयोग करते हुए एकत्रित करते हैं। "

कोगन और चांसलर ने वास्तव में क्या किया?

जैसा कि मैंने कहानी में विकास का पालन किया, यह स्पष्ट हो गया कि कोगन और कुलपति ने वास्तव में इस डेटा के माध्यम से बहुत सारे अपने डेटा एकत्र किए थे। वे निश्चित रूप से एक भविष्यवाणी एसवीडी मॉडल का निर्माण कर सकते थे जैसे कि कोसिंस्की और स्टिलवेल के प्रकाशित अनुसंधान में छपा।

इसलिए मैंने कोगन को यह पूछने के लिए ईमेल किया कि क्या उसने ऐसा किया था। कुछ हद तक मुझे आश्चर्य है, उसने वापस लिखा था

उन्होंने लिखा, "हमने एसवीडी का बिल्कुल इस्तेमाल नहीं किया है, यह देखते हुए कि एसवीडी संघर्ष कर सकता है जब कुछ उपयोगकर्ताओं के पास दूसरों की तुलना में" पसंद "अधिक होता है इसके बजाय, कोगन ने समझाया, "यह तकनीक कुछ ऐसा था जिसे हमने वास्तव में विकसित किया था ... यह कुछ ऐसा नहीं है जो सार्वजनिक डोमेन में है।" विवरणों के बिना, कोगन ने अपनी पद्धति का वर्णन "एक बहु-चरण सह-घटना दृष्टिकोण। "

हालांकि, उनका संदेश यह पुष्टि करने के लिए आगे आया था कि उनका दृष्टिकोण एसवीडी या अन्य मैट्रिक्स फैक्टरैस्म के तरीकों के समान था, जैसे नेटफ्लिक्स पुरस्कार प्रतियोगिता, और कोसींकी-स्टिलवेल-ग्राईपेल फेसबुक मॉडल। फेसबुक डेटा की आयाम में कमी उनके मॉडल का प्रमुख था।

यह कैसे सही था?

कोगन ने सुझाव दिया था कि प्रयुक्त सटीक मॉडल में कोई बात नहीं है, हालांकि - क्या मायने रखता है इसकी भविष्यवाणियों की सटीकता है कोगन के अनुसार, "भविष्यवाणी और वास्तविक स्कोर के बीच के संबंध ... सभी व्यक्तित्व आयामों के लिए लगभग [30 प्रतिशत] थे।" तुलना करके, एक व्यक्ति के पिछले बिग पांच अंकों के बारे में हैं 70 से 80 प्रतिशत सटीक जब वे टेस्ट लेते हैं तो उनके स्कोर की भविष्यवाणी में

कोगन के सटीकता के दावे को स्वतंत्र रूप से सत्यापित नहीं किया जा सकता है, ज़ाहिर है। और इस तरह के हाई-प्रोफाइल स्कैंडल के बीच में किसी को भी अपने योगदान को कमजोर करने के लिए प्रोत्साहन हो सकता है। उसके में सीएनएन पर उपस्थिति, कोगन ने एक बढ़िया इंद्रधनुषी एंडरसन कूपर को समझाया, वास्तव में, मॉडल वास्तव में बहुत अच्छी तरह से काम नहीं कर रहे थे।

{यूट्यूब}APqU_EJ5d3U{/youtube}

सीएनएन पर प्रश्नों के जवाब में अलेक्जांद्र कोगन

वास्तव में, सटीकता कोगन का दावा थोड़ा कम लगता है, लेकिन प्रशंसनीय। कोसिन्सकी, स्टिलवेल और ग्रापेल ने तुलनीय या थोड़ा बेहतर परिणाम बताया, जैसा कि कई हैं अन्य शैक्षणिक अध्ययन व्यक्तित्व की भविष्यवाणी करने के लिए डिजिटल पैरों के निशान का उपयोग करते हुए (हालांकि उन कुछ अध्ययनों में सिर्फ फेसबुक "पसंद" की तुलना में अधिक डेटा था)। आश्चर्य की बात यह है कि कोगन और चांसलर अपने खुद के स्वामित्व मॉडल को तैयार करने की परेशानी में आ जाएंगे यदि ऑफ़-द-शेल्फ समाधान सिर्फ सटीक लग रहे हों।

महत्वपूर्ण रूप से, हालांकि, व्यक्तित्व के गुणों पर मॉडल की सटीकता को दूसरे शोधों के साथ कोगन के परिणामों की तुलना करने की अनुमति मिलती है व्यक्तित्व की भविष्यवाणी में समकक्ष सटीकता के साथ प्रकाशित मॉडलों जनसांख्यिकी और राजनैतिक चर अनुमान लगाने में अधिक सटीक हैं।

उदाहरण के लिए, समान कोसिन्सकी-स्टिलवेल-ग्रापेल एसवीडी मॉडल की तुलना में पार्टी की संबद्धता को अनुमान लगाने में 85 प्रतिशत सटीक था, यहां तक ​​कि पसंद के अलावा किसी अन्य प्रोफ़ाइल जानकारी का उपयोग किए बिना। कोगन के मॉडल में समान या बेहतर सटीकता थी। दोस्तों या उपयोगकर्ताओं के जनसांख्यिकी के बारे में भी थोड़ी सी जानकारी जोड़ना संभवतः 90 प्रतिशत से ऊपर इस सटीकता को बढ़ावा देगा। लिंग, जाति, यौन अभिविन्यास और अन्य विशेषताओं के बारे में अनुमान शायद अधिक से अधिक 90 प्रतिशत सटीक होंगे।

आलोचनात्मक रूप से, यह अनुमान सबसे सक्रिय फेसबुक प्रयोक्ताओं के लिए विशेष रूप से अच्छा होगा- लोगों का मॉडल मुख्य रूप से लक्षित करने के लिए प्रयोग किया जाता था। विश्लेषण करने वाली कम गतिविधि वाला उपयोगकर्ता संभवत: फेसबुक पर नहीं होने की संभावना है।

जब मनोचिकित्सा ज्यादातर जनसांख्यिकी होता है

यह जानने के लिए कि मॉडल कैसे बनाया गया है, कैंब्रिज एनालिटिका के जाहिरा तौर पर विरोधाभासी विवरणों को स्पष्ट करने में मदद करता है भूमिका - या उसके अभाव - उस व्यक्तित्व की रूपरेखा और मनोचिकित्सा अपने मॉडलिंग में खेला वे सभी तकनीकी रूप से अनुरूप हैं जो कोगन ने वर्णन किया है।

कोगन की तरह एक मॉडल उपयोगकर्ताओं के किसी भी समूह पर उपलब्ध हर वैरिएबल के अनुमान देंगे। इसका अर्थ है कि यह स्वचालित रूप से होगा बिग पांच व्यक्तित्व स्कोर का अनुमान प्रत्येक मतदाता के लिए लेकिन इन व्यक्तित्व के गुण मॉडल का उत्पादन हैं, न कि इनपुट। सभी मॉडल को पता है कि कुछ फेसबुक पसंद और कुछ उपयोगकर्ताओं को एक साथ समूहबद्ध किया जाता है।

इस मॉडल के साथ, कैम्ब्रिज एनालिटिका कह सकता है कि यह लोगों के अनुभव और उच्च तंत्रिकाविज्ञान के लिए कम खुलेपन की पहचान कर रहा था। लेकिन एक ही मॉडल, हर उपयोगकर्ता के लिए सटीक भविष्यवाणियों के साथ, कम-शिक्षित पुराने रिपब्लिकन पुरुषों की पहचान करने का सही दावा कर सकता है।

कोगन की जानकारी कैंब्रिज एनालिटिका के बारे में भ्रम को स्पष्ट करने में भी मदद करती है वास्तव में इसके trove नष्ट कर दिया फेसबुक डेटा का, जब मॉडल से निर्मित मॉडल अभी भी परिचालित होने लगते हैंऔर भी आगे विकसित किया जा रहा है.

वार्तालापएक आयाम घटाना मॉडल का संपूर्ण अंक गणितीय रूप से सरल रूप में डेटा का प्रतिनिधित्व करना है। ऐसा लगता है कि कैम्ब्रिज एनालिटिका ने बहुत ही उच्च-रिज़ॉल्यूशन वाली तस्वीर ले ली है, इसे छोटा किया है, और फिर मूल को हटा दिया है। तस्वीर अभी भी मौजूद है - और जब तक कैंब्रिज एनालिटिका के मॉडल मौजूद हैं, डेटा प्रभावी ढंग से भी करता है।

के बारे में लेखक

मैथ्यू हिंडमैन, मीडिया और सार्वजनिक मामलों के एसोसिएट प्रोफेसर, जॉर्ज वाशिंगटन विश्वविद्यालय

यह आलेख मूलतः पर प्रकाशित हुआ था वार्तालाप। को पढ़िए मूल लेख.

संबंधित पुस्तकें

at इनरसेल्फ मार्केट और अमेज़न