![]() |
한동수 KAIST 전기전자공학부 교수 연구팀은 기계학습에 기반한 유전체 정렬 소프트웨어를 개발했다고 12일 밝혔다.
유전체는 생명체가 가지고 있는 염기서열 정보의 총합이다. 유전자는 생물학적 특징을 발현하는 모든 염기서열이다. 유전체가 책이라면 유전자는 공백을 제외한 모든 글자다.
염기서열을 분석하기 위해서는 유전체를 무수히 많은 조각으로 잘라낸 후 각 조각을 참조 유전체에 기반해 조립한다. 유전체 정렬 소프트웨어는 염기서열 분석으로 생성한 유전체 조각 데이터를 온전한 유전체 정보로 조립하기 위해 사용되는 소프트웨어다. 그러나 많은 연산이 필요하다는 한계가 있었다.
이번 연구는 기계학습 기반의 정렬 기법을 유전체 정렬 소프트웨어에 적용한 첫 사례다. 연산량을 대폭 줄이면서도 정확도를 유지했다. 주어진 데이터를 분포를 기계학습 모델이 학습하고, 최적화된 정렬 기법을 찾는다. 적합하다고 생각되는 정렬 방법을 사람이 정하던 기존 방법과 대비된다.
연구팀이 제안한 방법을 사용했을 때, 기존 정렬 방법에 비해 속도가 3.4배 빨라졌다. 이로 인해 전체 유전체 정렬 소프트웨어 속도도 1.4배 가속화됐다.
한 교수는 "기계학습 기술을 접목해 전장 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다는 것
정영목 KAIST 전기전자공학부 박사과장이 1저자로 참여한 이번 연구 결과는 국제 학술지 옥스퍼드 바이오인포메틱스에 지난 3월 공개됐다.
[정희영 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]