Cambridge Analytica'nın Facebook Hedefleme Modeli Nasıl Gerçekleşti?Çevrimiçi olarak ne kadar doğru profillenebilir? Andrew Krasovitckii / Shutterstock.com

Çalışmalarının merkezinde bulunan araştırmacı Facebook-Cambridge Analytica veri analizi ve siyasi reklamcılık yönteminin olduğu gibi çalıştığını ortaya koydu Netflix filmler önermek için kullanır.

Bana bir e-posta ile, Cambridge Üniversitesi bilgini Aleksandr Kogan, istatistik modelinin Cambridge Analytica için Facebook verilerini nasıl işlediğini açıkladı. İddia ettiği doğruluk, bunun yanı sıra hakkında çalıştığını gösteriyor seçmen hedefleme yöntemleri belirlendi ırk, yaş ve cinsiyet gibi demografik bilgilere dayanarak.

Doğrulanırsa, Kogan'ın hesabı, kullanılan Cambridge Analytica dijital modelinin, sanal kristal küre neredeyse birkaç iddia etti. Oysa Kogan'ın sağladığı rakamlar ayrıca göster nedir - ve değil - gerçekten mümkün by kişisel verilerin birleştirilmesi makine öğrenmesi ile siyasal amaçlar için.

Önemli bir kamuoyu endişesiyle ilgili olarak, Kogan'ın sayıları, kullanıcıların kişilikleri veyapsikografikler“Modelin vatandaşları hedefleme şeklinin mütevazı bir parçasıydı. Bu kesinlikle konuşulan bir kişilik modeli değildi, aksine demografiyi, sosyal etkileri, kişiliği ve diğer her şeyi büyük bir korelasyona sürükleyen bir modeldi. Her şeyi korelasyona sok ve bu işe çağır kişiliğini benimseme yaklaşımı, satılan ürün fatura edildiği gibi olmasa bile değerli bir kampanya aracı yarattı.


kendi kendine abone olma grafiği


Kişilik hedefleme vaadi

Trump kampanya danışmanlarının Cambridge Analytica’nın kullandığı vahiylerin ardından 50 milyon Facebook kullanıcısından gelen veriler Facebook, 2016 ABD başkanlık seçimlerinde dijital siyasi reklamcılığı hedefliyor; borsada milyarlarca dolar kaybetti, hükümetler Atlantik'in her iki taraf var açılan soruşturmalarve bir iniş Sosyal hareket kullanıcıları çağırıyor #DeleteFacebook.

Ancak kilit bir soru cevapsız kaldı: Cambridge Analytica kampanya mesajlarını vatandaşlara kişilik özelliklerine, hatta “iç iblisler, ”Bir şirket olarak bilgi uçuranın iddia ettiği?

Cambridge Analytica’nın büyük Facebook verileriyle ne yaptığını bilen biri varsa, Aleksandr Kogan ve Joseph Chancellor olacaktır. Öyleydi Küresel Bilim Araştırmalarına Başlıyorlar profil bilgilerini toplayanlardan 270,000 Facebook kullanıcısı ve on milyonlarca arkadaşı “thisisyourdigitallife” olarak adlandırılan bir kişilik testi uygulamasını kullanarak.

Bir parçası kendi araştırmam anlayışa odaklanır makine öğrenme yöntemler ve gelecek kitabım Dijital firmaların kitle oluşturmak için öneri modellerini nasıl kullandıklarını tartışır. Kogan ve Şansölye modelinin nasıl çalıştığı hakkında bir fikrim var.

Bu yüzden sormak için Kogan'a e-posta gönderdim. Kogan hala bir Cambridge Üniversitesinde araştırmacı; onun işbirlikçisi Şansölye şimdi Facebook'ta çalışıyor. Dikkat çekici bir akademik nezaket göstergesinde Kogan cevap verdi.

Cevabını biraz açmak ve biraz arka plan gerektirir.

Netflix Ödülünden “Psikometri” ye

Netflix, 2006’e yine de bir DVD posta şirketiyken 1 milyon dolarlık ödül Kullanıcıların film sıralaması hakkında tahminlerde bulunmak için şirkette olduğundan daha iyi bir yol geliştirenlere. Sürpriz bir üst düzey rakip takma Simon Simonk kullanarak bağımsız bir yazılım geliştiricisitemel yaklaşımı sonuçta en iyi takımların girişlerine dahil edildi. Funk, “denilen bir tekniği uyarladı.tekil değer ayrışımı, ”Kullanıcıların film derecelendirmelerini yoğunlaştırmak dizi faktör veya bileşen - esasen, önem sırasına göre sıralanmış bir dizi çıkarım kategorisi. Funk olarak bir blog yayınında açıklandı,

“Örneğin, bir kategori, en çok aksiyon içeren filmleri ve en altta yavaş filmleri ve buna karşılık en tepedeki aksiyon filmlerini beğenen kullanıcıları ve en azından yavaş filmleri tercih edenleri olan aksiyon filmlerini temsil edebilir. alt."

Faktörler, her zaman insanların elde edebileceği türden türlere benzemeyen yapay kategorilerdir. Funk'un ilk Netflix modelinde en önemli faktör “Pearl Harbor” ve “The Wedding Planner” gibi filmleri seven, aynı zamanda “Tercüme Kayıp” veya “Lekesiz Aklın Ebedi Güneş Işığı” gibi filmlerden nefret eden kullanıcılar tarafından tanımlandı. Modeli, makine öğrenmesinin, gruplar arasındaki ilişkileri nasıl bulabildiğini gösterdi. insanların ve kendilerini asla tanımayacak olan insanlar ve film gruplarının.

Funk'un genel yaklaşımı, 50 veya 100'i, hem kullanıcıların hem de filmlerin en önemli faktörlerini kullanarak, her kullanıcının her filmi nasıl değerlendireceğini iyi bir şekilde tahmin ediyordu. Bu yöntem, sık sık denilen Boyutsal küçülme ya da matris faktoringi yeni değildi. Siyaset bilimi araştırmacıları bunu göstermiştir. roll-call oylama verilerini kullanan benzer teknikler Kongre üyelerinin oylarını yüzde yüz doğrulukla 90 tahmin edebilir. Psikolojide “Büyük beş“Model, benzer şekilde yanıtlanma eğiliminde olan kişilik sorunlarını bir araya toplayarak davranışı tahmin etmek için de kullanılmıştı.

Yine de Funk'un modeli büyük bir ilerlemeydi: Tekniğin devasa veri setleriyle, hatta çok fazla veri eksikliği olanların bile çalışmasını sağladı - Netflix veri kümesi gibi, tipik bir kullanıcının şirketin binlerce kişiden sadece birkaç düzine filmini derecelendirdiği kütüphane. Netflix Ödül yarışmasının sona ermesinden on yıldan fazla bir süre sonra, SVD tabanlı yöntemlerya da örtük veriler için ilgili modeller, hala birçok web sitesinin, kullanıcıların ne okuyacağını, izleyeceğini veya alacağını tahmin etmesi için tercih edilen araç.

Bu modeller başka şeyleri de öngörebilir.

Facebook Cumhuriyetçi olup olmadığını bilir

2013'te Cambridge Üniversitesi araştırmacıları Michal Kosinski, David Stillwell ve Thore Graepel Facebook verilerinin tahmin gücü, çevrimiçi kişilik testi ile toplanan bilgileri kullanarak. İlk analizleri, hem kullanıcıları hem de “beğendikleri” şeyleri en iyi 100 faktörlerine ayırmak için SVD kullanan Netflix Ödülünde kullanılanlarla neredeyse aynıydı.

Bu makale, kullanıcıların Facebook'ta sadece “beğendikleri” ile yapılan bir faktör modelinin 95 yüzde doğru siyah beyaz katılımcıları ayırt etmede, 93 erkekleri kadınlardan ayırmada yüzde doğru, 88 erkeklerde kadınları ayırt etmede doğru yüzde 85 ve gey erkekleri doğrudan tanımlayan erkeklerden ayırt etmede doğrudur. Cumhuriyetçilerin zamanın yüzde XNUMX'unu Demokratlardan bile ayırt edebiliyordu. Ayrıca, doğru olmasa da faydalıydı. kullanıcıların puanlarını tahmin etmek “Büyük Beş” kişilik testi.

Vardı toplum haykırışı cevap olarak; haftalar içinde Facebook vardı kullanıcıların beğenilerini özel yaptı varsayılan olarak.

Aynı zamanda Cambridge Üniversitesi araştırmacıları olan Kogan ve Şansölye, Cambridge Analytica'nın ana şirketi SCL ile işbirliğinin bir parçası olarak seçim hedeflemesi için Facebook verilerini kullanmaya başlamıştı. Kogan Kosinski ve Stillwell'i projesine katılmaya davet etti, ancak işe yaramadı. Kosinski'nin Kogan ve Şansölye’nin olabileceğinden şüphelenildiği bildirildi Facebook "beğeniler" modelini tersine mühendislikle tasarladı Cambridge Analytica için. Kogan bunu inkar etti ”dedi.tüm modellerimizi oluşturduk kendi verilerimizi kullanarak, kendi yazılımımızı kullanarak topladık. ”

Kogan ve Şansölye gerçekte ne yaptı?

Hikayedeki gelişmeleri takip ettiğimde, anlaşıldı ki Kogan ve Şansölye gerçekten de bu kişisel yaşam uygulaması aracılığıyla birçok veriyi topladı. Kosinski ve Stillwell’in yayınlanmış araştırmalarında öne sürdüğü gibi bir tahmin edici SVD modeli oluşturabilirlerdi.

Ben de Kogan'a e-posta ile yaptım mı diye sordum. Biraz şaşırdım, o da geri yazdı.

“Tam olarak SVD kullanmadık” diye yazdı, bazı kullanıcılar diğerlerinden çok daha fazla “hoşlanınca” SVD'nin mücadele edebileceğini belirtti. Bunun yerine Kogan, “Teknik aslında kendimizi geliştirdiğimiz bir şeydi… Kamusal alanda olan bir şey değil” dedi. Detaylara girmeden, Kogan yöntemlerini “çok adımlı” olarak nitelendirdi. eşdizimlilik yaklaşım.”

Bununla birlikte, yaklaşımının, Netflix Ödül yarışmasında ve Kosinki-Stillwell-Graepel Facebook modelinde olduğu gibi SVD'ye veya diğer matris faktörizasyon yöntemlerine benzer olduğunu doğrulamak için mesajı devam etti. Facebook verilerinin boyutsal olarak azaltılması modelinin çekirdeğini oluşturdu.

Ne kadar doğruydu?

Kogan, kullanılan tam modelin pek de önemli olmadığını öne sürdü - önemli olan tahminlerinin doğruluğu. Kogan'a göre, “öngörülen ve gerçek puanlar arasındaki korelasyon… bütün kişilik boyutları için [30 yüzde] civarındaydı.” Buna karşılık, bir kişinin önceki Büyük Beş puanları yaklaşık 70 - 80 yüzde doğru Testi tekrar aldıklarında puanlarını öngörmede.

Kogan'ın doğruluk iddiaları elbette bağımsız olarak doğrulanamıyor. Ve böyle yüksek profilli bir skandalın ortasında bulunan herkes katkısını vurgulamaya teşvik edebilir. Onun içinde CNN'de görünümKogan, gittikçe artan bir şekilde inanılmaz bir Anderson Cooper'a, modellerin aslında çok iyi çalışmadığını söyledi.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan, CNN hakkındaki soruları yanıtlıyor.

Aslında, Kogan'ın iddia ettiği doğruluk biraz düşük ama makul görünüyor. Kosinski, Stillwell ve Graepel bir kaç tane daha olduğu gibi karşılaştırılabilir veya biraz daha iyi sonuçlar bildirdi. diğer akademik çalışmalar kişiliği tahmin etmek için dijital ayak izlerini kullanmak (bu çalışmaların bazılarının sadece Facebook'un “beğenmesinden” daha fazla veri olmasına rağmen). Hazır olmayan çözümler de aynı derecede doğru gözüküyorsa, Kogan ve Şansölyenin kendi tescilli modellerini tasarlama zorluğuna gitmeleri şaşırtıcı.

Daha da önemlisi, modelin kişilik puanlarındaki doğruluğu, Kogan'ın sonuçlarının diğer araştırmalarla karşılaştırılmasına olanak sağlıyor. Kişilik tahmininde eşdeğer doğruluğa sahip yayınlanmış modeller demografik ve politik değişkenleri tahmin etmede çok daha doğrudur.

Mesela, benzer Kosinski-Stillwell-Graepel SVD modeli, parti üyeliğini tahmin etmede yüzde 20'den fazla doğruydu, hatta beğeniler dışında profil bilgileri kullanmadan bile. Kogan'ın modeli benzer veya daha iyi bir doğruluğa sahipti. Arkadaşlarınız veya kullanıcıların demografisi hakkında az miktarda bilgi bile eklemek, bu doğruluğu 85 yüzde üzerindeki oranlarda artıracaktır. Cinsiyet, ırk, cinsel yönelim ve diğer özellikler hakkındaki tahminler de muhtemelen yüzde 90'ten daha fazla olacaktır.

Kritik olarak, bu tahminler özellikle en aktif Facebook kullanıcıları için - modelin öncelikli olarak hedef almak için kullanıldığı insanlar için iyi olacaktır. Analiz etmek için etkinliği daha az olan kullanıcılar zaten Facebook'ta değiller.

Psikografi çoğunlukla demografik olduğunda

Modelin nasıl oluşturulduğunu bilmek, Cambridge Analytica’nın rolü - veya bunların eksikliği - Bu kişilik profili ve psikografik modellemede oynadı. Hepsi teknik olarak Kogan'ın tarif ettiği ile uyumlu.

Kogan'ın bir modeli, herhangi bir kullanıcı grubunda bulunan her değişken için tahminler verir. Bu otomatik olarak olacağını anlamına gelir Büyük Beş kişilik puanlarını tahmin etmek Her seçmen için. Ancak bu kişilik puanları girdi değil modelin çıktısıdır. Modelin bildiği tek şey, bazı Facebook beğenilerinin ve bazı kullanıcıların bir arada gruplanma eğiliminde olduğu.

Bu modelle, Cambridge Analytica, deneyime açıklığı ve yüksek nevrotikliği düşük insanları tanımladığını söyleyebilirdi. Ancak aynı model, her kullanıcı için aynı öngörülerde bulunduğundan, daha az eğitimli yaşlı Cumhuriyetçi erkekleri tanımladığını iddia edebilir.

Kogan'ın bilgileri ayrıca Cambridge Analytica'nın karışıklığı netleştirmeye yardımcı oluyor aslında onun cesedini sildim Facebook verilerinin, veriler modelden oluşturulduğunda hala dolaşıyor gibi görünüyorVe hatta daha da geliştiriliyor.

KonuşmaBir boyut küçültme modelinin tüm noktası, verileri matematiksel olarak daha basit bir biçimde göstermek. Cambridge Analytica çok yüksek çözünürlüklü bir fotoğraf çekmiş, daha küçük olacak şekilde yeniden boyutlandırmış ve ardından orijinali silmiş gibi. Fotoğraf hala var - ve Cambridge Analytica'nın modelleri olduğu sürece, veriler de etkili bir şekilde var.

Yazar hakkında

Matthew Hindman, Medya ve Halkla İlişkiler Doçenti, George Washington Üniversitesi

Bu yazı orijinalinde Konuşma. Okumak Orijinal makale.

İlgili Kitaplar

at InnerSelf Pazarı ve Amazon