Christopher Marlowe의 가능한 초상화. (제공 : 위키 미디어 커먼즈를 통한 익명 사용자)

새로운 통계 분석에 의하면 Christopher Marlowe는 William Shakespeare 헨리 VI 연극.

셰익스피어가 연극의 모든 장면에서 진정으로 모든 단어를 썼는지에 대한 질문은 시인 자신의 생애부터 계속되어왔다. 음란 음모 이론은 극작가가 진정으로 존재하지 않았다고 주장하거나, 극작가가 아니라 배우 일 뿐이라고 주장합니다. 문학 학자들은 연극이 공동 작문되었을지도 모르는 사람들과 그 공인되지 않은 동료가 누구 일지에 대해 토론했습니다.

De Montfort University의 셰익스피어 학자와 함께 일하는 University of Pennsylvania School of Engineering and Applied Science의 정보 과학자들은 새로운 통계 방법을 사용하여이 질문의 맨 아래에 도달합니다.

셰익스피어는 도움을 받았다.

의 에세이에서 셰익스피어 분기 별, 그들은 새로운 증거를 제공합니다. 헨리 VI 희곡에는 다른 저자가 쓴 언어가 포함되어 있습니다. 그들의 분석은 Christopher Marlowe을 가능성이있는 후보로 간주하지만, 다른 작가들도 참여했을 수 있습니다.

"더 신뢰할 수있는 접근 방식은 의미있는 단어가 아닌 '기능적', 즉 '~', '~', '~'등의 단어를 사용하는 것입니다."


내면의 구독 그래픽


한 가지는 확실합니다. 셰익스피어는이 연극을 혼자 쓰지 않았습니다.

문학 학자들은 컴퓨터가 출현하기 전에도 저작자의 질문을 해결하기 위해 저자의 스타일을 정량화하려고 시도해 왔습니다. 그러나 수작업 계산과 관련된 기술의 엄격 성으로 인해 분쟁이 발생했습니다. 전산 접근법은 신뢰성과 객관성이 향상 될 것이라는 약속으로 현장을 다시 활성화 시켰습니다.

"정보 과학을 사용하여 논쟁의 여지가있는 저자에 관한 질문에 답하는 것은 20 년 전으로 거슬러 올라갑니다. 컴퓨팅 파워와 함께 성장해 왔습니다. 그러나 우리의 접근 방식은 단순한 것 이상입니다. "라고 Alejandro Ribeiro 전기 및 시스템 엔지니어링 부교수가 말했습니다.

작은 단어에 집중

이전의 컴퓨터 접근법은 어휘와 사용법을 통해 저작 스타일을 정량화하려고 시도해 왔습니다. 특정 단어의 빈도를 세어 텍스트 전체에서 비교함으로써 저자의 어휘 프로필을 작성하는 데 사용되었습니다. 그러나이 접근법에는 결함이 있습니다. 텍스트에 사용 된 단어의 분포는 저자보다 주제에 더 영향을받을 수 있습니다.

"더 신뢰할 수있는 접근 방식은 의미있는 단어가 아닌"the ","and ","to "등의 기능적 단어를 사용하는 것입니다."라고 공동 저자 인 Santiago Segarra는 말합니다. "모든 사람들이이 단어를 사용해야하므로 저자가 어떻게 다른지 분석하면 객관적으로 '스타일'을 측정 할 수 있습니다."

그런 단어의 빈도를 단순히 계산하는 것이 아니라 펜 팀이 서로의 근접성을 측정했습니다. 연구자는 대상 텍스트에 나타나는 50-100 기능 단어 목록을 작성한 후 "단어 인접 네트워크"를 추출하는 알고리즘을 적용합니다.

기능적 단어의 각 쌍에는 서로 얼마나 많은 단어가 떨어져 있느냐에 따라 점수가 주어집니다. 함께, 그 점수는 문법 "지문"의 일종으로 행동 동일한 저자에 의해 서로 다른 텍스트 사이에 현저하게 일관성이 있습니다.

Ribeiro는 "예를 들어 우리가이 시스템을 나와 샌디에고의 놀이로 훈련 한 다음 우리 중 한 사람이 작성한 또 다른 놀이를 주면 어떤 시간에 98 퍼센트를 기록했는지 알 수 있습니다. "

알고리즘 교육

셰익스피어의 저자에 대한 계속되는 논쟁을 알고있는 펜 팀은 De Montfort의 셰익스피어 연구 교수 인 가브리엘 에간 (Gabriel Egan)과 협력하여 학자들의 공감대 내에서 일하고 있는지 확인했습니다. 예를 들어, 학자들은 셰익스피어의 나중 연극 중 하나의 공동 저자로 존 플레처를 널리 받아 들였지만, 두 개의 고귀한 친족. 셰익스피어의 초기 작품 중 일부는 헨리 VI 연극과 타이터스 앤드 러니 커스, 협업으로 생각되었지만, 얼마나 많은 사람들과 누구와의 관계가 덜 명확했는지에 대해 설명했습니다. 이로 인해 더 깊은 분석을위한 좋은 표적이되었습니다.

"언어는 궁극적 인 '빅 데이터'문제입니다."

연구원은 셰익스피어의 연극 전체에 알고리즘을 훈련하여 그를위한 문체 지문을 개발했습니다. 그들은 또한 Fletcher, Christopher Marlowe, Thomas Middleton, Ben Jonson, George Peele 등 여러 유명한 동시대 지문을 개발했습니다. 마지막으로, 모든 후보자의 모든 텍스트를 하나의 프로필로 결합했습니다. 본질적으로 그 시대의 영어 저자의 "평균"지문이었습니다.

Shakespearean 코퍼스의 단어 인접 네트워크 지문을 분석 한 결과 세 가지 헨리 VI 희곡은 셰익스피어 희곡 중에서 문체의 특이점이었다. 이 변칙은 셰익스피어가 전적으로이 희곡 전체를 썼다는 것을 거의 불가능하게 만들었고, 다른 그룹의 계산 접근법에 의해 생성 된 결과를 확인했습니다.

"우리는 같은 결론에 따라 다른 방법론으로 독립적 인 연구를하고 있습니다"라고 Egan은 말합니다. "독립적 인 접근 방식이 많아 질수록 우리는 더 확신을 가질 수 있습니다."

자신있게 헨리 VI 연극은 이상 치 였지만, 다음 과제는 그들이 포함 할 수있는 문체 지문이 누구인지 확인하는 것이 었습니다. Christopher Marlowe와 George Peele은 오랫동안 이름없는 공동 작업자로 생각했습니다. 타이터스 앤드 러니 커스, 2 명의 주요한 후보자이었다.

"한 후보자를 고를 수 있다면 Marlowe가 될 것"이라고 Segarra는 말한다. "두 가지를 골라야한다면 Marlowe와 Peele로 갈 것입니다. 그러나 후자의 경우 우리는 분류자를 완전히 훈련시키기에 충분한 크기의 표본을 가지고 있지 않습니다. 이를 역사적인 증거와 결합하면 Marlowe는 명확하게 선호 된 공동 저자가됩니다. "

Egan은 역사적인 증거가 Marlowe에 대한 비결을 알려주고 있다고 확신합니다. "완전히 다른 접근법을 사용하는 다른 조사관은 Marlowe를 주요 후보로 만드는 증거를 최근에 밝혀 냈습니다."

"매우 유명한 폭동 장면이 있습니다. 헨리 VI, Part 2, "Egan은"혁명가 인 Jack Cade의 추종자 중 한 명이 "우리가하는 일은 모든 변호사를 죽이자"고 말합니다. Marlowe가 Jack Cade 장면에 책임이 있다고 생각합니다. 물론 우리는 그들이 함께 앉아서 공동 저자로 일했는지 여부를 알지 못합니다. 셰익스피어 (Shakespeare)는 예를 들어 그 구절을 나중에 적용했을 것입니다. "

셰익스피어와 말로우

Egan과 그의 공동 편집인 새로운 옥스포드 셰익스피어 전집 Marlowe를 셰익스피어의 공동 저자로 헨리 VI 연극. 뉴 옥스포드 셰익스피어은 셰익스피어의 모든 저서와 현대 철자법, 해석과 해설을 담고 있으며 극작가에게 가장 권위있는 학술 자료로 간주됩니다.

"ENIAC과 함께 언어에 관한 이러한 질문이 컴퓨터 발상지에서 다루어지고 있습니다."라고 Egan은 말합니다.

"언어는 궁극적 인 '빅 데이터'문제이며 저작자를 정당한 소유자에게 귀속시키는 것은 기술적 도전이자 편집자에게는 도덕적 의무입니다. 서로 다른 배경과 다른 보완 기술을 가진 21 세기 작가들의 협력이 그 기원이 다양했던 16 세기의 협력을 밝혀야한다는 것은 맞는 말입니다. "

출처: 펜실베니아 대학

관련 도서 :

at 이너셀프 마켓과 아마존