생물 학자들이 인생의 비밀을 깨는 데 컴퓨터가 도움을주는 방법

30 억 자 길이의 인간 게놈이 시퀀싱되면 우리는 새로운 "오 믹스"생물학 연구 시대. 과학자들은 이제 다양한 유기체의 게놈 (모든 유전자) 또는 프로테옴 (모든 단백질)을 서열화하기 위해 경쟁하고 있습니다. 그리고 그 과정에서 엄청난 양의 데이터를 수집하고 있습니다.

예를 들어 과학자는 DNA 시퀀싱과 같은 "omics"도구를 사용하여 바이러스 성 독감 감염에 영향을받는 인간 유전자를 알아낼 수 있습니다. 그러나 인간 게놈은 적어도 25,000 유전자를 가지고 있기 때문에 그러한 간단한 시나리오 하에서도 변형 된 유전자의 수는 잠재적으로 수천 개에 달할 수 있습니다.

유전자와 단백질을 시퀀싱하고 식별하는 것은 그 (것)들에게 이름과 장소를 제공하지만, 그것이 무엇을하는지 우리에게 말하지는 않는다. 우리는 어떻게 이들 유전자, 단백질 및 사이에있는 모든 것들 다른 생물학적 과정에서 상호 작용한다.

오늘날 기본 실험조차도 큰 데이터를 산출하며, 가장 큰 문제 중 하나는 배경 잡음으로부터 관련 결과를 풀어내는 것입니다. 컴퓨터는이 데이터 산을 극복하는 데 도움이됩니다. 그러나 그것들은 과학적 가설을 제시하고 새로운 생물학적 과정을 설명 할 수있게 도와줍니다. 데이터 과학은 본질적으로 최첨단 생물학 연구를 가능하게합니다.

구출하는 컴퓨터

컴퓨터는 분석에 필요한 모든 중요한 조건을 동시에 추적 할 수 있으므로 대규모 데이터 세트를 처리 할 수있는 고유 한 자격이 있습니다.


내면의 구독 그래픽


그들은 인간의 실수를 반영 할 수있다. 컴퓨터 프로그래밍은 많은 양의 데이터를 효율적으로 처리 할 수 ​​있으며 인간 연구자가 그렇듯이 익숙한쪽으로 편향되지 않습니다.

컴퓨터는 또한 실험 데이터 세트에서 특정 패턴을 찾도록 가르 칠 수 있습니다. 1950에서 처음 제안 된 기계 학습이라는 개념, 특히 수학자 앨런 튜링. 데이터 세트에서 패턴을 학습 한 알고리즘은 이전에는 결코 만나지 못한 새로운 데이터를 기반으로 예측을 수행하도록 요청받을 수 있습니다.

기계 학습은 이제 우리가 큰 데이터 세트를 활용하고 컴퓨터에 기초 생물학을 이해하도록 도울 수 있기 때문에 생물학적 연구에 혁명을 가져 왔습니다.

두뇌 과정을 시뮬레이션하여 컴퓨터를 교육

우리는 자체 실험실에서 인공 신경 네트워크 (ANN)라고 불리는 흥미로운 기계 학습 유형을 사용했습니다. 두뇌는 고도로 상호 연결된 신경 회로망으로, 신경 배선을 통해 전기 펄스를 전송함으로써 통신합니다. 마찬가지로, ANN은 컴퓨터에서 뉴런의 네트워크를 시뮬레이트합니다.이 네트워크는 다른 뉴런의 신호에 응답하여 켜고 끕니다.

실제 뉴런의 과정을 모방 한 알고리즘을 적용함으로써 네트워크가 여러 유형의 문제를 해결할 수 있도록 배울 수 있습니다. Google은 현재 유명한 ANN을 사용합니다. 딥 드림 프로젝트 컴퓨터는 이미지를 분류하고 심지어 만들 수 있습니다.

우리 그룹은 다음과 같은 목표를 가지고 면역 체계를 연구합니다. 암에 대한 새로운 치료법 파악. 우리는 ANN 계산 모델을 사용하여 우리의 면역 세포가 무언가가 우리 몸에 이질적이며 공격을 받아야 하는지를 결정하기 위해 사용하는 짧은 표면 단백질 코드를 연구했습니다. 우리의 면역 세포 (예 : T 세포)가 정상 세포와 비정상 세포 / 외래 세포를 어떻게 구별하는지 더 잘 이해하면 더 나은 백신과 치료법을 설계 할 수 있습니다.

우리는 수년에 걸쳐 연구자가 밝힌 수천 개의 단백질 코드 공개 목록을 조사했습니다. 우리는이 큰 데이터 세트를 건강한 인간 세포에서 유래 한 정상적인자가 단백질 코드와 바이러스, 종양 및 박테리아에서 유래 한 비정상적인 단백질 코드로 나눴습니다. 그런 다음 우리 연구실에서 개발 한 인공 신경 네트워크를 살펴 보았습니다.

ANN에 단백질 암호를 입력하면 알고리즘이 근본적인 차이 정상 단백질 코드와 비정상 단백질 코드 사이. 사람들이 이러한 종류의 생물 현상을 추적하는 것은 어려울 것입니다. 문자 그대로 수천 개의 이러한 단백질 코드가 큰 데이터 세트에서 분석됩니다. 이 복잡한 문제를 다루고 새로운 생물학을 정의하는 기계가 필요합니다.

기계 학습을 통한 예측

생물학에서 기계 학습의 가장 중요한 적용은 큰 데이터를 기반으로 한 예측을 만드는 데 유용합니다. 컴퓨터 기반의 예측은 큰 데이터를 이해하고 가설을 테스트하며 소중한 시간과 리소스를 절약 할 수 있습니다.

예를 들어, 우리의 T 세포 생물학 분야에서, 목표로하는 바이러스 성 단백질 코드를 아는 것은 백신과 치료법 개발에 중요합니다. 그러나 주어진 바이러스의 개별 단백질 코드가 너무 많아서 실험적으로 각 바이러스를 시험하기가 너무 비싸고 어렵습니다.

대신, 우리는 인공 신경망을 훈련하여 기계가 두 종류의 단백질 코드 (정상 대 이상)의 모든 중요한 생화학 적 특징을 학습하도록 도와줍니다. 그런 다음 모델에 새로운 바이러스 성 단백질 코드가 "비정상적인"범주와 유사하고 T 세포 및 면역계에서 볼 수있는 "예측"을 요청했습니다. 이전에 연구 된 적이없는 다른 바이러스 단백질에 대한 ANN 모델을 테스트했습니다.

물론, 선생님을 기쁘게하려는 열심 인 학생처럼 신경망은이 바이러스 내에서 T 세포 활성화 단백질 코드의 대부분을 정확하게 확인할 수있었습니다. 우리는 ANN의 예측의 정확성을 검증하기 위해 플래그를 지정한 단백질 코드를 실험적으로 테스트했습니다. 이 신경망 모델을 사용하여 과학자는 이렇게 할 수있다. 빠르게 예측하다 유해한 바이러스의 모든 중요한 단백질 코드를 단정 짓고 테스트하는 대신 치료 또는 백신 개발을 테스트하십시오.

현명한 학습 기계 구현

끊임없이 정제 작업이 진행됨에 따라 큰 데이터 과학 및 기계 학습은 점점 더 많은 과학 연구에 필수 불가결 해지고 있습니다. 생물학에서 컴퓨터를 사용하여 훈련하고 예측하는 가능성은 거의 무한합니다. 생체 표지자의 어떤 조합이 질병을 발견하기에 가장 적합한 지 알아내는 것에서부터 왜만 이해하는지에 이르기까지 일부 환자는 특정 암 치료의 혜택을 받는다., 컴퓨터를 사용하여 큰 데이터 세트를 마이닝하는 것은 연구를위한 중요한 경로가되었습니다.

물론 한계가 있습니다. 빅 데이터 과학의 가장 큰 문제점은 데이터 자체입니다. - 학술 연구에서 얻은 데이터가 불량이거나 기초 과학을 기반으로하는 경우 기계는 불량 데이터에 대해 교육을 받게됩니다. 가난한 예측. 학생은 선생님만큼 행복합니다.

컴퓨터가 감각적이지 않기 때문에 (아직), 그들은 패턴이 없으면 존재하지 않을 때라도 패턴을 찾아 내고, 나쁜 데이터와 재현 불가능한 과학을 다시 일으킬 수 있습니다.

그리고 일부 연구자들은 컴퓨터에 대한 우려가 커지고있다. 블랙 박스 데이터 그들을 대신하여 수행되는 조작과 음모를 명확하게 이해하지 못하는 과학자들에게 도움이됩니다.

이러한 문제에도 불구하고, 큰 데이터와 기계의 이점은 과학 연구에서 귀중한 파트너가 될 것입니다. 주의 사항을 염두에두고 우리는 기계의 눈을 통해 생물학을 이해할 수있는 독창적 인 자세를 취하고 있습니다.

저자에 관하여대화

스리 크리슈나 (Sri Krishna), 아리조나 주립 대학의 생물 및 건강 시스템 공학부의 생물학 디자인, 디에고 차웰 (Diego Chowell), 애리조나 주립대 응용 수학 박사

이 기사는 원래에 게시되었습니다. 대화. 읽기 원래 기사.


관련 도서 :

at 이너셀프 마켓과 아마존