Cambridge Analytica의 Facebook 타겟팅 모델이 실제로 어떻게 작동했는지얼마나 정확하게 온라인으로 프로파일 링 할 수 있습니까? Andrew Krasovitckii / Shutterstock.com

연구의 중심에있는 연구원 페이스 북 - 캠브리지 분석가 데이터 분석 및 정치 광고의 소동 그의 방법이 그 하나와 매우 비슷하게 작동한다는 것을 밝혀냈다. Netflix는 영화를 추천하기 위해 사용합니다..

케임브리지 대학의 학자 알렉산드로 코간 (Aleksandr Kogan)은 이메일을 통해 자신의 통계 모델이 케임브리지 분석가를 위해 Facebook 데이터를 처리 한 방법을 설명했습니다. 그가 주장하는 정확성은 유권자 타겟팅 방법 확립 인종, 나이 및 성별과 같은 인구 통계를 기반으로합니다.

확인되면 Kogan의 계정은 Cambridge Analytica가 사용한 디지털 모델링이 가상 수정 구슬 몇몇은 주장했다.. 그러나 Kogan이 제공하는 수치 또한 보여라. 무엇이며 - 아닌지 - 실제로 가능하다. by 개인 데이터 결합 기계 학습과 함께 정치적 목적으로.

그러나 대중의 관심사 중 하나 인 Kogan의 수치는 사용자의 성격이나 "심리학"그 모델이 시민들을 어떻게 목표로 삼았는지에 대한 단순한 부분이었습니다. 엄밀히 말하면 성격 모델이 아니 었습니다. 오히려 인구 통계, 사회적 영향, 성격 및 기타 모든 것을 큰 상관 관계가있는 덩어리로 만들었습니다. 이렇게 개인화 된 방식으로 접근하는 방식은 판매되는 제품이 청구 된 것과 같지 않더라도 귀중한 캠페인 도구를 만든 것으로 보입니다.


내면의 구독 그래픽


성격 타겟팅의 약속

Trump 캠페인 컨설턴트 인 Cambridge Analytica가 사용한 계시를 계기로 백만 사용자 50의 데이터 2016 미국 대통령 선거 중 디지털 정치 광고를 타깃으로하는 주식 시장 가치의 손실 된 수십억, 정부 대서양의 양쪽 있다 수사를 열었습니다., 그리고 초기 사회 운동 사용자가 #DeleteFacebook.

케임브리지 애널리 티카 (Cambridge Analytica)는 성격 특성에 따라 시민들에게 캠페인 메시지를 효과적으로 효과적으로 타겟팅 할 수 있었는지, 심지어는 "내면의 악마, "회사가 고발 한 혐의자?

누구나 케임브리지 분석가가 페이스 북 데이터의 방대한 양으로 무엇을했는지 알면 Aleksandr Kogan과 Joseph Chancellor가 될 것입니다. 그것은 그들의 신생 글로벌 과학 연구 에서 프로필 정보를 수집 한 270,000 Facebook 사용자 및 수천만 명의 친구 "thisisyourdigitallife"라는 성격 테스트 앱을 사용합니다.

부분의 내 자신의 연구 이해에 초점을 맞춘다. 기계 학습 방법 및 내 책 디지털 기업이 추천 모델을 사용하여 잠재 고객을 구축하는 방법에 대해 설명합니다. 나는 코간과 재무 장관의 모델이 어떻게 작동했는지에 대해 직감적이었다.

그래서 나는 Kogan에게 이메일을 보내달라고 부탁했다. 코간은 여전히 캠브리지 대학의 연구원; 그의 협력자 교육감은 현재 Facebook에서 일하고 있습니다.. 코간 (Kogan)은 놀라운 학문적 호의를 보여 주면서 대답했습니다.

그의 반응은 약간의 풀기와 약간의 배경이 필요합니다.

넷플 릭스 상 (Netflix Prize)에서 "psychometrics"

2006에 돌아 갔을 때, 여전히 DVD-by-mail 회사 였을 때, Netflix는 $ 1 백만의 보상 회사가 이미 가지고있는 것보다 사용자의 영화 순위에 대한 예측을 내릴 수있는 더 좋은 방법을 개발 한 사람에게. 놀람 최고 경쟁자는이었다 익명의 사이먼 펑크 (Simon Funk), 그의 기본 접근 방식은 궁극적으로 모든 상위 팀의 항목에 통합되었습니다. 펑크 (Funk)는 "특이 값 분해, "사용자의 영화 평점을 일련의 요소 또는 구성 요소 - 본질적으로 추론 된 범주 집합으로서 중요도에 따라 순위 지정됩니다. 펑크로서 블로그 게시물에서 설명했다.,

"예를 들어, 카테고리는 액션 영화를 대표 할 수 있습니다. 맨 위에는 많은 액션이 있고, 하단에는 느린 영화가 있고, 그에 상응하여 액션 영화가 가장 좋아하는 사용자와 느린 영화를 선호하는 사용자가 있습니다. 바닥."

요인은 인위적인 범주로 인간이 생각해내는 범주와 항상 같지는 않습니다. 그만큼 Funk의 초기 Netflix 모델에서 가장 중요한 요소 '진주만 (Pearl Harbor)'과 '웨딩 플래너 (The Wedding Planner)'와 같은 영화를 좋아하고 '번역에서 잃어버린 마음'의 영원한 햇빛과 같은 영화를 싫어하는 사용자가 정의했습니다. 그의 모델은 기계 학습이 사람, 영화 그룹과 같이 인간이 절대로 발견하지 못하도록합니다.

펑크의 일반적인 접근 방식은 모든 사용자가 모든 영화를 평가하는 방법에 대해 알기 쉽도록 50 또는 100의 가장 중요한 요소를 사용자와 영화에 사용했습니다. 이 방법은 종종 차원 감소 또는 행렬 인수 분해는 새로운 것이 아닙니다. 정치 학자들은 롤 콜 (roll-call) 투표 데이터를 사용하는 유사한 기술 90 퍼센트의 정확성을 가진 의원의 투표 수를 예측할 수 있습니다. 심리학에서 "빅 파이브"모델은 비슷한 대답을하는 경향이있는 성격 질문을 함께 클러스터링하여 행동을 예측하는 데 사용되었습니다.

그럼에도 불구하고 펑크의 모델은 큰 진보였습니다. Netflix 데이터 세트와 같이 누락 된 많은 데이터가있는 거대한 데이터 세트에서도 잘 작동 할 수있었습니다. 일반적인 사용자가 회사의 수천 개의 파일 중 수십 개의 파일 만 평가했습니다. 도서관. 넷플 릭스 상 경진 대회가 끝난 지 10 년이 넘었으며, SVD 기반 방법암시 적 데이터에 대한 관련 모델는 많은 웹 사이트에서 사용자가 무엇을 읽고,보고, 사는지 예측할 수있는 도구입니다.

이 모델은 다른 것들도 예측할 수 있습니다.

페이스 북은 당신이 공화당 맞는지 알고 있습니다.

2013에서는 케임브리지 대학교의 Michal Kosinski 연구원, David Stillwell 및 Thore Graepel이 Facebook 데이터의 예측력온라인 성격 테스트를 통해 수집 된 정보를 사용합니다. 그들의 초기 분석은 Netflix Prize에서 사용 된 것과 거의 같았습니다. SVD를 사용하여 사용자와 그들이 좋아하는 것을 모두 100 상위 요소로 분류했습니다.

이 논문은 사용자의 Facebook이 "좋아하는 것"으로 만든 요인 모델이 정확한 95 퍼센트 흑인과 백인 응답자를 구별 할 때 93은 남성과 여성을 구별 할 때 정확하고 88은 동성애자로 밝혀진 사람들과 똑같은 사람을 구별 할 때 정확합니다. 심지어 공화당과 민주당의 85 비율을 정확하게 구별 할 수있다. 또한 정확하지는 않지만 유용했습니다. 사용자의 점수 예측 "Big Five"성격 테스트에서

가 발생했습니다 공공 외침 답으로; 페이스 북에는 몇 주 안에 만든 사용자가 비공개로 만들었습니다. 기본적으로

당시 케임브리지 대학의 연구원 인 Kogan과 Chancellor는 Cambridge Analytica의 모회사 인 SCL과의 협력의 일환으로 선거 타겟팅을 위해 Facebook 데이터를 사용하기 시작했습니다. Kogan은 Kosinski와 Stillwell을 초대하여 프로젝트에 참여했지만 잘 풀리지 않았다.. Kosinski는 Kogan과 Chancellor가 Facebook의 "좋아하는"모델을 리버스 엔지니어링했습니다. Cambridge Analytica의 경우 코간 (Kogan)은 그의 프로젝트 "모든 모델을 구축했다. 우리 고유의 소프트웨어를 사용하여 수집 한 자체 데이터를 사용합니다. "

코간과 교육감은 실제로 무엇을 했습니까?

이야기의 발전을 따라 가면서 코간 (Kogan)과 교육감 (Chancellor)은이 유적지 앱을 통해 많은 양의 데이터를 실제로 수집했음을 알게되었습니다. 그들은 Kosinski와 Stillwell의 발표 된 연구에 등장하는 예측 SVD 모델을 확실히 만들 수있었습니다.

그래서 나는 Kogan에게 그것이 그가 한 일인지 물었습니다. 놀랍게도 그는 다시 썼다.

"우리는 SVD를 정확히 사용하지 않았습니다."라고 말하면서, 일부 사용자가 다른 사람들보다 "좋아하는 것"이 ​​더 많을 때 SVD가 어려움을 겪을 수 있다고 지적했습니다. 코간 (Kogan)은 "기술은 우리가 실제로 개발 한 것"이라며 "이것은 공공 영역에 존재하는 것이 아니다"라고 말했다. 세부 사항은 밝히지 않았지만 코간 (Kogan)은 그들의 방법을 "다단계 공존 접근."

그러나 그의 메시지는 그의 접근법이 넷플 릭스 상 경쟁과 Kosinki-Stillwell-Graepel Facebook 모델과 같은 SVD 또는 다른 매트릭스 인수 분해 방법과 실제로 유사하다는 것을 확인하기 위해 계속되었습니다. Facebook 데이터의 차원 성 축소가 그의 모델의 핵심이었습니다.

얼마나 정확 했습니까?

코간 (Kogan)은 사용 된 정확한 모델이별로 중요하지 않다고 제안했다. 그러나 중요한 것은 예측의 정확성이다. 코간 (Kogan)에 따르면, "예측 된 점수와 실제 점수 사이의 상관 관계는 모든 성격 차원에서 [30 퍼센트] 정도였습니다."비교하면, 이전의 Big Five 점수는 70에서 80 %까지 정확하게 그들이 시험을 다시 치를 때 그들의 점수를 예측할 때.

물론 Kogan의 정확성 주장은 독립적으로 검증 될 수 없습니다. 그리고 그러한 주목할만한 스캔들에 빠진 누군가는 자신의 공헌을 과소 평가할 유인을 가질 수 있습니다. 그의 CNN의 외모, 코간은 점점 더 믿기지 않는 앤더슨 쿠퍼 (Anderson Cooper)에게 사실 모델이 실제로 잘 작동하지 않았다고 설명했다.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan은 CNN에 대한 질문에 답변합니다.

사실, Kogan의 정확성에 대한 주장은 다소 낮지 만 그럴듯 해 보입니다. Kosinski, Stillwell 및 Graepel은 비슷한 수준이거나 약간 우수한 결과를 보였습니다. 기타 학술 연구 디지털 발자국을 사용하여 개성을 예측합니다 (일부 연구는 Facebook이 "좋아하는 것"보다 많은 데이터를 보유하고 있음). 시판 솔루션이 정확 해 보이는 것처럼 Kogan과 장관이 자신의 독점 모델을 설계하는 데 어려움을 겪는 것은 놀라운 일입니다.

그러나 성격 점수에 대한 모델의 정확성은 Kogan의 결과를 다른 연구와 비교할 수 있다는 점에서 중요합니다. 성격 예측에있어 동등한 정확성을 가진 게시 된 모델은 모두 인구 통계 및 정치 변수를 추측 할 때 훨씬 정확합니다.

예를 들어 비슷한 Kosinski-Stillwell-Graepel SVD 모델은 좋아하는 것 이외의 프로필 정보를 사용하지 않고도 파티 제휴를 추측하는 데있어 85 퍼센트 정확했습니다. Kogan의 모델은 비슷하거나 더 나은 정확도를가집니다. 친구 나 사용자의 인구 통계에 관한 정보를 조금이라도 추가하면이 정확도가 90 % 이상으로 높아질 수 있습니다. 성별, 인종, 성적 취향 및 기타 특성에 대한 추측은 아마도 90 퍼센트 이상일 수도 있습니다.

비판적으로, 이러한 추측은 가장 적극적인 Facebook 사용자에게 특히 유용 할 것입니다.이 모델은 주로 모델 대상이었습니다. 어쨌든 분석 할 활동이 적은 사용자는 Facebook에 없을 가능성이 큽니다.

심리적 통계가 주로 인구 통계 일 때

모델 구성 방법을 아는 것은 Cambridge Analytica의 모순 된 설명을 설명하는 데 도움이됩니다. 역할 - 또는 그것의 부족 - 그 성격 프로파일 링과 심리학이 모델링에서 연주되었습니다. 그들은 모두 코간이 묘사 한 것과 기술적으로 일치합니다.

Kogan과 같은 모델은 모든 사용자 그룹에서 사용할 수있는 모든 변수에 대한 추정치를 제공합니다. 즉, 자동으로 빅 5 성격 점수를 추정해라. 모든 유권자에게. 그러나 이러한 성격 점수는 입력이 아닌 모델의 결과입니다. 모든 모델은 특정 Facebook 좋아하는 사람과 특정 사용자가 함께 그룹화되는 경향이 있다는 것을 알고 있습니다.

이 모델을 통해 Cambridge Analytica는 경험이 부족한 사람이나 높은 신경증 환자를 식별하고 있다고 말할 수있었습니다. 그러나 모든 사용자에 대해 똑같은 예측을하는 동일한 모델은 교육 수준이 낮은 노인 공화당 남성을 정확하게 밝힐 수 있다고 주장 할 수 있습니다.

Kogan의 정보는 또한 Cambridge Analytica 실제로 그 진실을 삭제했다. Facebook 데이터의 여전히 순환하고있는 것처럼 보입니다., 심지어 더 개발되고있다.

대화차원 축소 모델의 전체적인 요점은보다 단순한 형태로 데이터를 수학적으로 표현하는 것입니다. 그것은 마치 Cambridge Analytica가 매우 고해상도 사진을 찍은 다음 크기를 작게 조정 한 다음 원본을 삭제 한 것과 같습니다. 사진은 여전히 ​​존재합니다. 케임 브리지 애널리 티카의 모델이 존재하는 한, 데이터도 효과적으로 작동합니다.

저자에 관하여

Matthew Hindman, 미디어 및 홍보 담당 부교수, 조지 워싱턴 대학

이 기사는 원래에 게시되었습니다. 대화. 읽기 원래 기사.

관련 서적

at 이너셀프 마켓과 아마존