컴퓨터가 번역을 대신하기 시작한 건 2000년대 초반 부터다. 최초엔 '규칙기반번역(RBMT)'이 활용됐다. 일종의 단어 중심 방식이다. 'I am a boy'라는 문장이 있다면 컴퓨터는 'I= 나', 'am=이다', 'boy=소년'으로 인식한다. 이후 한·영간 주어, 서술어 순서가 다르다는 공식을 적용해 '나는 소년이다'라는 번역 결과를 내놓는다.
문제는 컴퓨터가 영어 단어 'I'에 대해 한국어에서 '나', '저' 중 어떤 단어를 선택할 지 모른다는 데 있다. 영어를 막 배운 초등학생이 한 단어당 1개 뜻만 외우고 암기해 더듬 더듬 영작하는 수준이다. '쓰다' 단어는 RBMT에서 문장 안에 함께 쓰이는 말이 '모자'든 '한약'이든 무조건 'Write'로 번역한다.
그 다음 방식이 통계 기반 번역(SMT)이다. 단순한 영단어 조합에서 한 단계 발전했다. 특정 단어가 다른 단어와 쌍을 이룰 때 통계적으로 가장 많이 쓰이는 뜻으로 컴퓨터가 찾아 해석 결과를 내놓는 방식이다. 예를 들어 모자의 경우 '쓰다'는 'Wear'로 번역이 가능하다. 하지만 해당 언어권에 쓰이는 관용적 표현은 전혀 이해하지 못한다. '너에게 반했어'라는 말을 'I was against you'라고 해석하는 식이다.
인공신경망 번역(NMT)은 기존 RBMT, SMT와는 차원이 다른 방식이다. NMT는 문장 통째로 컴퓨터가 인식한다. 예컨대 'You are a boy=너는 소년이다', 'You are a girl=너는 소녀다'라는 문장이 입력되면 인공지능은 두 문장 사이 유사성을 파악하고 학습한다. 이후 비슷한 다른 문장이 나오면 이를 응용한다. 어울리는 표현을 익히는 방식이다. 이런 번역이 가능해지려면 무수히 많은 문장을 학습하는 과정이 필요하다. SMT가 교과서 암기라면, 인공신경망 번역은 미국 현지에서 직접 외국인들과 소통하며 어학연수를 하는 것에 비유할 수 있다.
인공신경망 번역은 향후 이모티콘을 포함하거나 앞·뒷문장까지 포함하는 더 거대한 단위로 발전할 예정이다. 웃고 있는 이모티콘을 '죽을래?'라는 문장과 함께 포함해 번역하면 'Wanna die?' 대신
[신현규 기자 / 오찬종 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]