본문 바로가기

암 환자의 예후 예측 연구

  • 서상민
  • 인천대학교
  • 작품구분일반형
  • 공개여부공개
  • 카테고리전자
  • 등록일2017-11-30
  • 팀원(공동개발자)
  • 출품 경진대회2017-2학기 아이디어 ‘톡톡’ 캡스톤디자인 산학연계팀 경진대회

상세설명

1. 수행배경           

질병은 하나의 유전자 돌연변이 때문에 발생하는 것이 아니라, 다양한 유전적 요인들이 복합적으로 얽혀서 발생한다. 네트워크 위에서 그래프 특징 및 클러스터링 알고리즘을 이용하여 예후 유전자 또는 유전자 모듈을 탐색 하거나 Google의 페이지 랭크 알고리즘을 이용하여 유전자들 간의 관계들을 중심으로 암의 중요한 기능에 관련된 유전자를 식별하는 연구가 진행되었다. 기존의 방법들은 예후 유전자를 탐색하고 높은 예측 정확도를 보여주었으나, 예후에 관한 유전자 정보를 제공하지는 못하였고, 방대한 네트워크 데이터를 학습할 수 있는 방법이 부족하였다. 본 과제에서는 딥러닝을 이용하여 거대한 네트워크를 효과적으로 학습하고, 학습된 정보로부터 유전자 정보를 추출하는 방법을 제안한다.

       

2. 수행기간

201761~ 2018131

 

추진일정표

일련번호

주요내용

추진일정

기간

()

10

11

12

1

공공데이터 수집 및 정제

 

 

 

1

2

관련 연구 조사 및 알고리즘 설계

 

 

 

3

3

알고리즘 구현 및 실험

 

 

 

2

4

결과 해석 및 정리

 

 

 

2

 

 

3. 개발작품 설명

암환자의 유전자 발변 및 예후 데이터 수집

본 연구에서 활용한 암환자의 유전자 발현 데이터 및 예후 정보를 제공하는 치료 데이터는 TCGA(The Cancer Genome Atlas) 데이터베이스에서 공개하고 있다. 또한 GEO(Gene Expression Omnibus) 데이터베이스는 질병을 포함한 방대한 양의 유전자 발현 및 유전적 변이 데이터를 제공한다.

 

질병 관련 유전자 정보 수집

질병 관련 유전자 정보는 주로 OMIM COSMIC에서 수집하였다. 질병에 관여하는 유전자들에 대한 정보는 주로 OMIM(Online Mendelian Inheritance in Man) 데이터베이스에서 수집하였고, COSMIC에서는 기존에 연구되어 보고된 정보들을 선별하여 암에 관한 체세포 돌연변이 정보 및 관련 세부 정보를 활용하였다.

 

다양한 생물학적 네트워크 데이터 수집

생물학적 네트워크에는 물리적으로 상호작용하는 두 단백질을 이어 만든 단백질-단백질 상호작용 (Protein-protein interaction ; PPI) 네트워크, 그리고 전령 RNA (messenger RNA; mRNA)의 발현을 조절하는 관계를 표상한 유전자 발현 조절 네트워크(Gene regulatory network) 등이 있다. 대부분의 생물학적 기능은 하나의 단백질이 홀로 작용하지 않고 여러 단백질이 복합적으로 관여하기 때문에, 네트워크 데이터의 이용은 보다 생물학적 분석에 도움을 줄 수 있다. 이러한 네트워크 데이터는 HPRD, BIND, DIP, MINT, MIPS, IntAct, REATCOME, BioGRID등의 많은 데이터베이스에서 수집하여 통합 하였다.

 

word2vec을 응용한 네트워크 학습

단어의 의미(=정보)를 추론하기 위해 수많은 문장을 학습하는 재귀신경망 모델이 있다. 그러나 재귀신경망은 복잡한 계산량을 요구하므로 학습하는데 많은 시간을 필요로 한다. 이에 Mikolov는 학습된 재귀신경망으로부터 얻은 단어 벡터를 이용하여 단어의 의미를 추론하는 방법을 제안하였고, 재귀신경망의 계산량을 개선하여 효율적으로 단어 벡터를 계산하는 word2vec 모델을  제작 하였다. 본 과제에서는 네트워크 학습을 위해 word2vec을 응용하였다. 문장이란 연관된 단어들이 모여서 생성된 단어들의 나열이고, 유전자 네트워크는 유전자들간의 관계에 따라 생성된 유전자 나열들의 모임이다.

4. 활용방안

암의 예후 예측 기법의 임상에의 활용

· 기존에 수집된 암 관련 임상 자료 및 유전자 발현 데이터에 적용하여, 임상적인 방법만으로 예후 진단하는 것보다 더 정확한 예측이 가능해질 수 있다.

· 기존의 임상 자료를 이용해서 수술 후 경과에 대한 예후 예측과 합병증의 위험도 평가 등의 작업들 또한 추가적으로 수행 가능하다.

· 이러한 예후 및 치료법의 예측은 다양한 암에 대해서 적용 가능할 뿐 아니라, 다른 유전적 질병에 대해서도 충분한 테스트를 거쳐서 사용할 수 있을 것으로 기대할 수 있다.


신약 개발 및 치료에 활용

· 다양한 조건의 조합에 대한 원인을 단백질/유전자 레벨로 추론할 수 있으므로, 암의 치료를 위한 새로운 의약품의 개발에 직간접적으로 활용될 수 있다.

 

생물정보학 취업 역량 강화

· 생물 정보학은 통계, 컴퓨터공학, 생물 등 다양한 학문의 지식과 역량을 요구하기에 본 과제를 수행함으로써 학생들에게 생물정보학, 빅 데이터 분석 등 다양한 진로에 대한 기회를 제시할 수 있다.

 

 

 

 

 

소개 영상

정보가 없습니다.

소개 슬라이드

정보가 없습니다.

기타자료

댓글