트위터의 친구가 어떻게 당신의 익명을 줄 수 있습니까?

인터넷을 탐색하면서 온라인 광고주는 거의 모든 사이트 방문당신의 습관과 선호도에 대한 정보를 모으고 있습니다. 뉴스 사이트를 방문하면 농구, 오페라 및 신비 소설 팬이되어 자신의 취향에 맞는 광고를 선택할 수 있습니다.

광고주는이 정보를 사용하여 고도로 개인화 된 경험을하지만, 일반적으로 자신이 누구인지 정확히 알지 못합니다. 그들은 신원 정보가 아닌 디지털 흔적 만 관찰하므로 익명 성을 유지했다고 느낄 수 있습니다.

그러나, 나는 coauthored 한 신문에서 Ansh Shukla, Sharad Goel 및 Arvind Narayanan과 함께우리는 이러한 익명의 웹 브라우징 기록이 실제로 실제 ID에 묶일 수 있음을 보여줍니다.

Google의 접근 방식을 테스트하기 위해 웹 사이트 이 연구의 목적을 위해 사람들이 인터넷 사용 기록을 기부 할 수 있습니다. 그런 다음 공개적으로 사용 가능한 데이터 만 사용하여 자신의 기록을 Twitter 프로필에 다시 연결할 수 있는지 확인하려고했습니다. 우리가 탈퇴 한 사람 중 72 %가 검색 결과에서 가장 높은 후보로 정확하게 식별되었고, 81 비율은 최고의 15 후보 중 하나였습니다.

privacy2 2 8deanonymization 웹 사이트의 스크린 샷.

이것은 수억 명의 가능한 트위터 사용자 중 올바른 사용자를 선택하기 때문에 현재까지 가장 큰 규모의 데 노이 네이 제이션 데모입니다. 또한 우리의 방법은 콘텐츠를 게시하는 것이 아니라 소셜 미디어 피드에 나타나는 링크를 클릭하는 것만을 요구합니다. 따라서 인터넷에서 공유하는 것에 조심하는 사람들조차도이 공격에 여전히 취약합니다.


내면의 구독 그래픽


전달 방법

높은 수준에서 우리의 접근 방식은 간단한 관찰을 기반으로합니다. 각 개인은 매우 독특한 사회적 네트워크를 가지고 있으며 학교, 직장 및 다양한 삶의 단계에서 온 가족 및 친구로 구성됩니다. 결과적으로 Facebook 및 Twitter 피드의 링크 집합은 매우 독특합니다. 이 링크를 클릭하면 인터넷 사용 기록에 말표가 표시됩니다.

개인이 방문한 웹 페이지 세트를 살펴보면 비슷한 소셜 미디어 피드를 골라 웹 검색 기록을 생성 한 후보자 목록을 얻을 수있었습니다. 이런 식으로 어떤 소셜 미디어 사이트에 게시 된 적이없는 링크를 포함하여 방문한 거의 모든 링크 집합에 사람의 실제 정체성을 매길 수 있습니다.

이 전략을 수행하는 데는 두 가지 중요한 문제가 있습니다. 첫 번째는 이론적 인 것입니다. 특정 소셜 미디어 피드가 특정 웹 탐색 기록과 얼마나 유사한 지 어떻게 계량합니까? 하나의 간단한 방법은 피드에도 나타나는 인터넷 사용 기록의 링크 비율을 측정하는 것입니다. 이것은 실제로는 잘 작동하지만 큰 피드의 경우 유사성이 너무 많습니다. 링크가 더 많이 포함되어 있기 때문입니다. 대신에 대체 접근법을 택합니다. 우리는 웹 브라우징 동작의 양식화되고 확률 론적 인 모델을 가정 한 다음 해당 소셜 미디어 피드를 가진 사용자가 관찰 된 검색 기록을 생성했을 가능성을 계산합니다. 그런 다음 가장 가능성있는 소셜 미디어 피드를 선택합니다.

두 번째 과제는 가장 유사한 피드를 실시간으로 식별하는 것입니다. 트위터 피드 (페이스 북과 대조적으로)는 대부분 공개되어 있으므로 여기서 우리는 트위터로 전환합니다. 그러나 피드가 공개 되더라도 쿼리를 실행할 수있는 트위터의 로컬 복사본을 만들 수는 없습니다. 대신 우리는 검색 공간을 크게 줄이기 위해 일련의 기술을 적용합니다. 그런 다음 캐싱 기술과 주문형 네트워크 크롤링을 결합하여 가장 유망한 후보자의 피드를 만듭니다. 이 축소 된 후보 집합에서 최종 결과를 산출하기 위해 유사성 측정을 적용합니다. 검색 기록이 주어지면 일반적으로 60 초 이내에 전체 프로세스를 수행 할 수 있습니다.

우리의 방법은 Twitter를 더 적극적으로 탐색하는 사람들에게 더 정확합니다. 트위터에서 100 이상의 링크를 클릭 한 참가자의 90 %는 신원과 일치 할 수 있습니다.

많은 기업들이 참가자의 동의 없이도 이와 같은 공격을 수행 할 수있는 추적 리소스를 보유하고 있습니다. Google은 실험 참여자 각각이 특정 추적 회사에서 볼 수 있었던 탐색 기록의 일부만 사용하여 해당 페이지의 추적자를 보유하고 있기 때문에 각 실험 참가자의 이름을 deanonymize하려고 시도했습니다. 우리는 몇몇 회사가 참가자를 정확하게 식별 할 수있는 자원을 확보하고 있음을 발견했습니다.

개인 정보 보호 정책 2 8기타 비 정규화 연구

다른 여러 연구에서는 공개적으로 사용 가능한 발자국을 사용하여 민감한 데이터를 비 분류화했습니다.

아마도이 라인을 따라 가장 유명한 연구는 Latanya 스위니 하버드 대학 2002에서. 그녀는 그것을 발견했다. 미국인의 87 %는 유일하게 식별 가능했습니다. ZIP 코드, 성별 및 생년월일의 조합을 기반으로합니다. 이 세 가지 속성은 유권자 등록 데이터 (US $ 20에서 구입 한 것)와 익명의 의료 데이터 (사람들이 데이터가 익명이라고 생각했기 때문에 널리 배포 됨)에서 사용할 수있었습니다. 이 데이터 소스를 연결함으로써 매사추세츠 주지사의 의료 기록을 발견했습니다.

2006년에 Netflix가 콘테스트를 운영했습니다. 영화 추천의 품질을 향상시킵니다. 그들은 사람들의 영화 등급에 대한 익명의 데이터 세트를 공개하고 1 퍼센트로 추천 알고리즘을 향상시킬 수있는 $ 10 백만을 팀에 제공했습니다. 컴퓨터 과학자 아빈 드 나라 야난비탈리 슈 마티 코프 사람들이 보았던 영화는 매우 독특했고 데이터 세트의 대부분의 사람들은 영화의 작은 부분 집합을 기반으로 고유하게 식별 할 수있었습니다. 즉, Netflix 영화 선택 및 IMDB 리뷰를 기반으로 연구원은 Netflix 사용자가 실제로 누구인지 파악할 수있었습니다.

소셜 미디어의 등장으로 점점 더 많은 사람들이 무해한 것처럼 보이는 정보를 공유하고 있지만 실제로 많은 개인 정보가 드러납니다. 에 의해 주도 된 연구 미칼 코신 스키 케임브리지 대학교에서 Facebook은 사람들의 성적 취향, 정치 견해 및 성격 특성.

이끄는 또 다른 팀 길버트 원라스 렉 비엔나 공과 대학 (Vienna University of Technology)에서는 소셜 네트워크 싱 (Sing) 네트워크에 속한 그룹을 파악하여 자신이 누구인지 파악하는 데 사용되는 "탈유정 기계"를 만들었습니다. 귀하가 소속 된 그룹이 종종 고유하게 식별 할만큼 충분하기 때문에 당신.

할 수있는 일

이러한 공격의 대부분은 인터넷 사용을 중단하거나 공적인 생활에 참여하지 않는 한 변호하기가 까다 롭습니다.

인터넷 사용을 중단하더라도 회사는 여전히 데이터를 수집 할 수 있습니다. 친구들 중 몇몇이 Facebook에 전화 연락처를 업로드하고 전화 번호가 모든 연락처 목록에있는 경우 Facebook은 자신의 서비스를 사용하지 않더라도 자신에 대한 예측을 할 수 있습니다.

우리와 같은 deanonymizing 알고리즘을 방어하는 가장 좋은 방법은 익명의 브라우징 데이터에 액세스 할 수있는 사람을 제한하는 것입니다. 브라우저 확장 프로그램 Ghostery 제 3 자 추적 프로그램을 차단합니다. 즉, 귀하가 방문하는 웹 사이트를 방문하는 회사가 해당 웹 사이트를 방문하고 있음을 알게 되더라도 해당 페이지에 광고를 게재하는 광고 회사는 귀하의 인터넷 브라우징 데이터를 수집하여 여러 사이트에 걸쳐 집계 할 수 없습니다.

웹 마스터 인 경우 사용자를 보호하기 위해 다음을 사용하여 사이트를 탐색 할 수 있습니다. HTTPS. HTTP를 사용하여 브라우징하면 공격자가 네트워크 트래픽을 스니핑하여 검색 기록을 얻을 수 있으므로 공격자가이 공격을 수행 할 수 있습니다. 많은 웹 사이트가 이미 HTTPS로 전환했습니다. 우리가 네트워크 트래픽 스니퍼의 관점에서 우리의 deanonymization 실험을 반복했을 때, 참여자의 31 %만이 deanonymized 될 수있었습니다.

그러나 일반적으로 비명 시적 공격으로부터 자신을 보호하기 위해 할 수있는 일은 거의 없으며 최선의 행동 방침은 개인의 기대치를 조정하는 것입니다. 이 디지털 시대에는 사적인 것이 없습니다.

저자에 관하여

Jessica Su, Ph.D. 스탠포드, Stanford University

이 기사는 원래에 게시되었습니다. 대화. 읽기 원래 기사.

관련 서적

at 이너셀프 마켓과 아마존