트위터가 과학자들에게 인간의 행복과 건강의 창을주는 방법

10 년 전에 출시 된 이래 트위터는 친구 사이의 소셜 네트워킹 플랫폼, 스마트 폰 사용자를위한 인스턴트 메시징 서비스, 기업 및 정치인을위한 프로모션 도구로 사용되었습니다.

그러나 복잡한 사회 시스템 내에서 인간이 어떻게 느끼고 기능 하는지를 연구하고자하는 연구자와 과학자 - 나 자신과 같은 -에 대한 소중한 데이터 원천이기도합니다.

트윗을 분석함으로써 우리는 통제 된 실험실 실험 밖에서 수백만 명의 사람들이 "야생에서"사교적 인 상호 작용에 대한 데이터를 관찰하고 수집 할 수있었습니다.

이를 통해 우리는 모니터링을위한 도구를 개발할 수있었습니다. 거대한 인구 집단의 감정, 미국에서 가장 행복한 장소 그리고 훨씬 더.

그렇다면 트위터가 전산 사회 과학자들을위한 독특한 자원이 된 방법은 무엇입니까? 그리고 그것이 우리를 발견하게 한 원인은 무엇입니까?


내면의 구독 그래픽


트위터의 가장 큰 연구자 선물

7 월 15, 2006, Twittr (그 당시 알려진대로) 공개적으로 시작 친구 그룹이 SMS로 무작위적인 생각을 불러 일으키는 데 도움이되는 모바일 서비스 "라고 표현했습니다. 무료 140 문자 그룹 텍스트를 보내는 기능을 사용하여 많은 초기 얼리 어답터 (해당 사용자 포함)가 플랫폼을 사용할 수있었습니다.

시간이 갈수록 사용자 수 폭발 한: 20의 2009 백만에서 200의 2012 백만, 오늘 310 백만입니다. 친구와 직접 소통하는 대신 사용자는 팔로어에게 자신이 어떤 느낌인지, 긍정적이거나 부정적으로 뉴스에 응답하거나, 농담을 해독하기 만하면됩니다.

연구자에게 트위터의 가장 큰 선물은 대량의 공개 데이터를 제공한다는 것이 었습니다. 트위터는 연구자가 특정 유형의 트윗 (예 : 특정 단어가 포함 된 트윗)에 대해 트위터에 쿼리 할 수있는 API (Application Programming Interfaces)를 통해 데이터 샘플을 제공 한 최초의 주요 소셜 네트워크 중 하나였으며 사용자에 대한 정보도 제공했습니다 .

이로 인해이 데이터를 이용하는 연구 프로젝트가 폭발적으로 증가했습니다. 오늘날 "트위터"에 대한 Google 학술 검색은 600 만 건의 조회수를 기록한 반면, "Facebook"은 500 만 건으로 나타났습니다. 그 차이는 특히 Facebook이 대략 트위터 사용자 수의 5 배 (2 세 이상).

트위터의 관대 한 데이터 정책은 의심 할 여지없이 주류 미디어가 흥미로운 과학 연구를 포착하여 회사에 대한 훌륭한 무료 홍보를 이끌어 냈습니다.

행복과 건강 공부

전통적인 센서스 데이터가 수집하는 데 시간이 걸리고 비용이 많이 들기 때문에 Twitter와 같은 공개 데이터 피드는 대규모 인구의 변화를 실시간으로 볼 수있는 가능성을 제공합니다.

버몬트 대학 전산 이야기 연구소 2006에 설립되어 적용된 수학, 사회학 및 물리학 전반에 걸쳐 문제를 연구합니다. Story Lab은 2008 이후 Twitter의 "Gardenhose"피드를 통해 수십억 개의 트윗을 수집했습니다.이 피드는 실시간으로 모든 공개 트윗의 10 퍼센트의 무작위 샘플을 스트리밍하는 API입니다.

Computational Story Lab에서 3 년을 보냈고이 데이터를 사용하여 많은 흥미로운 연구의 일부가되어 운이 좋았습니다. 예를 들어 헤 도노 미터 Twittersphere의 행복을 실시간으로 측정합니다. 스마트 폰에서 보낸 지리적 위치가 지정된 트윗에 초점을 맞춤으로써 지도 미국에서 가장 행복한 곳. 아마도 놀랍지도 않지만, 우리는 하와이에서 가장 행복한 주와 포도주를 재배하는 나파는 가장 행복한 도시입니다. 2013합니다. 

행복에 의해 착색 된 13에서 2013만의 지글 롯된 미국 짹짹의지도. 빨간색은 행복을 나타내고 파란색은 슬픔을 나타냅니다. PLOS ONE, 저자 제공행복에 의해 착색 된 13에서 2013만의 지글 롯된 미국 짹짹의지도. 빨간색은 행복을 나타내고 파란색은 슬픔을 나타냅니다. PLoS 하나, 저자 제공.이 연구들은 더 깊은 적용을 보였습니다 : 인구 통계와 트위터 단어 사용량을 연관 시키면 도시의 기본 사회 경제적 패턴을 이해하는 데 도움이되었습니다. 예를 들어, 단어 사용을 비만과 같은 건강 요소와 연결할 수 있으므로 어휘 열량계 소셜 미디어 게시물의 "칼로리 콘텐츠"를 측정합니다. 고열량 식품을 언급 한 특정 지역의 트윗은 해당 지역의 "칼로리 함유량"을 증가 시켰고, 운동 활동을 언급 한 트윗은 우리의 측정 기준을 감소 시켰습니다. 우리는이 간단한 측정 다른 건강 및 웰빙 측정 항목과 상관 관계가있다.. 다시 말해, 트윗은 특정 시간대에 도시 나 지역의 전반적인 건강 상태에 대한 스냅 샷을 제공 할 수있었습니다.

풍부한 트위터 데이터를 사용하여 전례없는 세부적인 방식으로 사람들의 일상적 움직임 패턴보기. 인간의 이동성 패턴을 이해하는 것은 질병 모델링을 변형시킬 수있는 능력을 가지고 있으며, 디지털 역학.

다른 연구를 위해 우리는 여행자가 집에 머물러있는 사람들보다 트위터에서 더 큰 행복을 표현하는지 (답 : 그들은) 행복한 개인은 소셜 네트워크에서 함께 붙어있는 경향이 있습니다. (다시, 그들은). 과연, 양성은 언어 그 자체에 구워지는 것처럼 보입니다., 우리는 부정적인 단어보다 긍정적 인 단어가 있다는 의미에서. 이것은 트위터의 경우가 아니고 다양한 서적 (예 : 서적, 영화 및 신문) 및 언어 전반에 해당됩니다.

이 연구들과 전세계에서 온 수 천명의 사람들은 트위터 덕분에 가능했습니다.

다음 10 년

그럼 우리는 다음 10 년 동안 트위터에서 무엇을 배울 것으로 예상 할 수 있습니까?

가장 흥미로운 연구는 현재 소셜 미디어 데이터를 수학 모델과 연결하여 질병 발발과 같은 인구 수준의 현상을 예측하는 것입니다. 연구원은 이미 트렌드 데이터를 통해 질병 모델을 보완하여 인플루엔자를 예측하는 데 성공했습니다. FluOutlook 플랫폼은 Northeastern University와 Institute for Scientific Interchange에서 개발했습니다.

여전히 많은 과제가 남아 있습니다. 소셜 미디어 데이터는 매우 낮은 "신호 대 잡음비"로 고통 받고 있습니다. 즉, 특정 연구와 관련이있는 트윗은 관련성이없는 "노이즈"로 인해 익사합니다.

그러므로 우리는 계속해서 "큰 데이터 오만"새로운 방법을 개발할 때 우리의 결과에 대해 과신하지 마십시오. 이것과 관련하여 이러한 데이터에서 해석 가능한 "유리 상자"예측을 생성해야합니다 (알고리즘이 숨겨 지거나 명확하지 않은 "블랙 박스"예측과 반대).

소셜 미디어 데이터는 종종 (작게) 대표성이없는 샘플 더 넓은 인구의. 연구원의 주요 과제 중 하나는 통계 모델에서 이러한 비뚤어져있는 데이터를 설명하는 방법을 파악하는 것입니다. 동안 매년 더 많은 사람들이 소셜 미디어를 사용하고 있습니다.우리는이 데이터의 편견을 계속해서 이해해야합니다. 예를 들어, 데이터는 여전히 고령 인구를 희생시키면서 젊은 사람들을 과장하는 경향이 있습니다.

더 나은 바이어스 보정 방법을 개발 한 후에야 연구자가 트윗에서 완전히 자신감있는 예측을 할 수 있습니다.

저자에 관하여

Lewis Mitchell, 응용 수학 강사, 애들레이드 대학

이 기사는 원래에 게시되었습니다. 대화. 읽기 원래 기사.

관련 서적

at 이너셀프 마켓과 아마존