자유롭게 커뮤니케이션하는 그 날까지! 인공신경망이 가져다 준 자동 통·번역 기술의 발전

최근 몇 년간 찾아보는 온라인 매체가 확 늘어났다. 뉴욕타임스를 비롯해 돈을 내고 정기 구독하는 매체도 대여섯 가지가 넘는다. 국내 매체도 있지만 대부분 미국과 일본 미디어다. 신경망 기반 자동 번역으로 인해 외국어 번역 품질이 눈에 띄게 좋아진 탓이다. 자세한 내용은 원문을 확인해야 하지만, 제목만 번역해줘도 대충 훑어보며 읽어야 할 기사를 찾는 시간이 많이 줄어든다. 이렇게 컴퓨터를 사용해 외국어를 번역해 주는 일을 기계번역이라 부른다.

인터넷이 널리 보급되던 20세기 말에도 비슷한 기능을 가진 소프트웨어는 있었다. 이제는 사라진 포털사이트 '알타비스타'에서도 번역 기능을 지원해줬고, '바벨'이라는 나름 유명한 프로그램도 있었다. 자동 번역을 통해 한국인과 일본인이 함께 참여할 수 있었던 게시판도 있었다. 다만 일본어를 제외하면 번역 수준이 매우 조악한 편이라, 재미로 한두 번 써보고 말았다. 기계번역은 기술 업계에서 흔히 있는 ‘그럴듯한 거짓말’처럼 여겨졌다.

원활한 커뮤니케이션을 위한 인간의 오랜 욕망

원활한 커뮤니케이션에 대한 욕망은 오래 전부터 존재했다. 실제로 컴퓨터 도입 초기부터 개발자들은 말이나 문장을 이해하고 번역하는 기능을 연구하고 있었다. 농담으로 하는 말이긴 하지만 최초로 프로그램이 가능했던 디지털 컴퓨터 ‘콜로서스 마크 1’이 했던 일도 난해한 암호를 사람이 이해할 수 있는 말로 번역하는 일이었다.

학계에서 조용히 이뤄지던 기계번역이 일반인에게 선보인 때는 1954년이다. 조지타운 대학과 IBM은 짧은 러시아어 문장을 영어로 자동번역하는 공개 실험을 열어 대성공을 거뒀다. 이 실험은 수년 안에 자동 번역이 상용화될 수 있다는 환상을 퍼트리며 연구지원금이 몰리게 했지만, 현실의 벽은 생각 이상으로 높았다. 결국, 1966년 미국 자동언어처리 자문위원회(ALPAC)에서는 공개적으로 기계번역의 실패를 인정하는 보고서를 내게 된다.

꿈은 사라지지 않았다. 규칙 기반, 예제 기반 기계번역을 거쳐, 1990년 초 IBM은 통계 기반 기계번역(SMT, Statistical Machine Translation) 기술을 제안한다. 기존 방식이 번역 원문을 구문 분석한 다음 변환 규칙에 따라 번역하는 방식이었다면, 통계 방식은 특정 단어나 문장의 여러 의미를 미리 저장해두고 이용자가 입력한 문장을 분석해 잘게 쪼갠 다음 통계적으로 비슷한 의미를 찾아내 번역한다. 이 방식은 짧은 글과 일반적인 단어 수준에서는 어느 정도 성과를 거두며, 한때 기계번역 시장 대부분을 장악했다.

신경망 기반 자동 번역이 가져다 준 충격

통계 기반 자동 번역이 자리를 잡아갈 무렵, 판이 뒤흔들리는 사건이 일어난다. 2016년 11월 구글 번역이 하룻밤 사이 변해버린 일이다. 말 그대로 아침에 눈 뜨니 구글 번역 달라져 있었다. ‘Time flies like an arrow’를 ‘시간 파리는 화살을 좋아하지 않는다’라고 번역하던 서비스가 ‘시간은 화살처럼 흐른다’라고 제대로 번역하게 됐다. 인공 신경망 기계번역(NMT、Neural Machine Translation)이라 부르는 기술을 적용한 덕이다.

컴퓨터가 알고리즘을 이용해 데이터를 분석, 학습하고 학습 내용을 기반으로 어떤 일에 관해 판단/예측하는 것을 기계 학습(Machine Learning)이라 부른다. 새로운 구글 번역에 적용된 인공 신경망 기계번역은 기계 학습의 한 방법인 심층 학습(Deep learning)이 적용되어 있다. 간단히 말하자면 문장을 통째로 번역하는 방법이다. 사람은 번역을 위한 구조만 짠다. 원문과 괜찮은 번역문을 잔뜩 입력한다. 다음은 컴퓨터에 달려있다. 인공지능 스스로 좋은 번역을 할 수 있는 방법을 찾는다. 방법을 찾았으면 다른 문장을 그 방법을 통해 번역해보고, 번역 결과가 좋지 않으면 조금씩 수정하면서 새로운 방법을 찾는다. 처음엔 사람이 결과를 평가하는 과정이 있지만, 나중엔 혼자 끝없이 되풀이한다.

솔직히 말하자면 최신 기술은 아니다. 제프리 힌튼이 딥 러닝이란 명칭을 사용하며 개선된 알고리즘을 제시하기는 했지만, 기본 알고리즘은 예전부터 있었다. 다만 당시에는 너무 느렸다. 학습 데이터로 쓰일 자료도 구하기 어려웠고, 컴퓨터 성능이 떨어져 제대로 구현하기도 어려웠다. 오늘날은 다르다. 인터넷과 스마트폰으로 세상이 바뀌었다. 지금 이 세계엔 넘쳐나는 데이터와 하드웨어 파워가 있다. 구글은 뉴스 서비스를 통해 확보한 기사를 이용해 약 1,000억개에 달하는 단어를 기계 학습 데이터로 사용했을 정도다. 이제 인공 신경망 기계번역은 대세가 됐다. 서로 부르는 이름은 다르지만, MS(Microsoft), 아마존, 페이스북, 네이버 등 주요 IT 기업이 모두 이 기술을 적용한 인공지능 번역 서비스를 선보였다.

음성인식기술의 진화와 자동 통역

자동 통·번역 서비스의 다른 편에는 음성인식기술이 자리 잡고 있다. 이 기술 역시 1960년대부터 연구가 진행되고 있었다. 음성을 문자로 전환하는 기술은 1984년에, 음성으로 컴퓨터를 제어하는 기술은 1990년대 매킨토시 컴퓨터의 ‘플레인 토크(Plain Talk)’ 소프트웨어를 통해 이미 선보인 바 있다. 다만 음성은 글보다 훨씬 복잡하기에 단어나 문장 정도를 인식하는 정도에 멈춰있다가, 딥러닝 도입 이후 어느 정도 사람이 말하는 것을 그대로 인식하는 수준까지 올라왔다.

음성인식기술이 중요한 이유는 이용자가 기기나 서비스를 이용하는 방법 자체를 바꿀 힘이 있기 때문이다. 우리가 사회생활을 하기 위해 많이 하는 행동은 말하기와 몸짓이지 읽고 보고 쓰는 일이 아니다. 음성 커뮤니케이션은 우리에게 가장 자연스러운 행동이다. 스마트폰 터치 인터페이스가 순식간에 우리 경험을 바꿔놓은 것처럼, 음성 인터페이스가 제대로 쓰이면 컴퓨터와 인간이 맺는 관계를 새로운 차원으로 바꿔놓게 된다. 많은 기업들이 음성으로 컴퓨터나 여러 기기를 조작하기 위해 계속 연구를 하는 이유다.

음성인식 기술과 자동 번역 기술이 만나면 자동 통역 서비스가 된다. 아쉽지만 아직 뚜렷한 성과를 내고 있지 못하다. 번역이 내가 정보를 얻는 과정에 개입하는 장치라면, 통역은 두 사람 사이의 대화에 개입하는 장치인 탓이다. 예를 들어 MS(Microsoft)의 화상채팅 메신저 ‘스카이프’를 이용하면 일부 언어만 자동 통역 서비스를 이용할 수 있다. 번역문의 어색함과 더불어 중간중간 조금씩 대화가 밀리기 때문에 아직 널리 쓰이고 있지 않다. ‘일리’ 같은 여행용 즉시 자동 번역기도 판매되고 있지만 번역할 수 있는 문장이나 쓸 수 있는 상황이 많지 않다. 구글 ‘픽셀 버드’나 네이버 ‘마스’처럼 즉시 자동 통역을 이용할 수 있는 이어폰도 소개됐지만, 항상 인터넷/스마트폰에 접속되어야 쓸 수 있어 실제 상황에서 쓰이기는 한계가 많다.

기계번역이 가져다줄 진짜 미래

신경망 기반 인공지능은 효율적 기계 학습을 통해 자동 통·번역 프로그램을 놀랄 만큼 개선했다. 아직 믿을 수 있는 수준은 아니다. 여전히 업무용으로 쓰기는 어렵고, 해당 언어를 어느 정도 알고 있는 사람이 참고하기에 더 적합하다. 번역과 비교해 봤을 때 통역 기능은 더 나쁘다. 수다 떨 듯 말하면 알아듣지 못할 때가 많다. 알아들어도 뜻을 제대로 이해하지 못하는 경우도 많다. 마케팅을 위해 인공지능 기술을 과장되게 홍보하고 있다는 말도 빈말이 아니다. 자동 통·번역 기술 성과를 자랑스럽게 내세우는 곳은 대부분 아마존, 구글, MS(Microsoft), 네이버처럼 클라우드 서비스를 제공하는 회사다.

애당초 언어의 몸에는 나이테가 새겨져 있는 탓이다. 오랜 세월을 거치며 끝없이 바뀌고, 새로운 말이 생겼다가 사라진다. 또한, 문법과 상관없이 사용되면서도 누구나 이해하는 예외를 많이 가지고 있는 것이 언어다. 게다가 말뜻이 말을 하는 상황과 말을 하는 사람에게도 영향을 받고, 보이지 않는 뉘앙스나 대화 분위기까지 영향을 끼친다. 이런 인간에겐 당연한 것을 컴퓨터는 모른다. AI에겐 상식과 감정이 없다. 앞으로 통·번역 품질은 조금 더 나아질 수 있겠지만, 이런 한계로 인해 외국어를 배우지 않아도 되는 날은 오지 않으리라 생각한다.

그렇다해도 자동 통·번역 프로그램 기술은 점차 나아지고 있다. 당장 할 수 있는 것과 없는 것을 분명히 해, 기대치를 낮추면 할 수 있는 일이 많다. 예를 들어 최근 한국고전번역원은 AI 기반 고전문헌 자동 번역 시스템을 구축했다. 아직 초벌 번역 수준이지만, 이 시스템을 다듬으면 40년 이상 걸릴 작업을 20년 정도 단축할 수 있게 된다.

MS(Microsoft)가 ‘뉴스테스트 2017’을 통해 선보인 인공지능 중국어-영어 번역은 사람이 하는 수준까지 이르렀다는 평가를 받았다. 조만간 뉴스 기사는 다국어로 쉽게 접할 수 있게 될 가능성이 커졌다. 사용 매뉴얼처럼 내용이 정형화되어 있는 문서는 이미 기계번역을 통해 비용을 절감하고 있다.

중국에서 개발된 '아이플라이텍 인풋(iFlytek Input)'은 5억명이 다운받은 앱이다. 말을 하면 다른 나라 언어로 번역해 준다. 이 앱을 만든 아이플라이텍의 기술은 법원에선 장시간 재판 기록용으로, 기업에선 자동 응답 음성을 합성하는 용도로, 차량 공유앱 ‘디디’에선 운전자에게 차량 요청이 들어왔음을 알리는 용도로 이용되기도 한다. 중국 쑤저우 시에 있는 한 병원은 환자 안내를 음성 인식 로봇이 맡고 있다. 환자가 자신의 증상을 로봇에게 말하면 그에 맞는 진료과를 안내한다고 한다. 아직 본격화되진 않았지만 의료 관광차 들린 외국인을 위해 자동 통역 서비스를 이용하려는 시도도 있다.

▲ ‘Travis’을 활용한 대화 모습. ‘아랍어 및 영어’ (출처: Travis)

다른 사례도 있다. 독일 루트비히 맥시밀리언 대학의 슈츠에 교수, 아스가리 연구원팀은 극히 소수만 사용하는 언어를 자동으로 기계번역 하는 것이 가능하다는 논문을 발표하기도 했다. 스톡홀름 개발자가 만든 ‘Welcome’ 앱은 난민을 위해 아랍어/페르시아어/스웨덴어/영어 등 4개 언어로 자동 번역되는 커뮤니티 앱이다. 기술은 다르지만 자동 통·번역이 적용된 스마트 기기도 계속 출시되고 있다. 일본 하네다 공항에서 쓰이는 ‘메가폰 야크’는 일본어로 말하면 자동으로 영어/중국어/한국어로 번역해 주는 스마트 메가폰이다. 번역되는 말이 정해져 있지만, 주로 안내를 위해 사용되기 때문에 충분하다 여겨진다. 작년 크라우드 펀딩 사이트 인디고고에 출품된 ‘Travis’는 80개 언어를 자동 통역해주는 기기다.

결국, 모든 기술이 향하는 끝에서 기다리고 있는 것은 ‘대화’다. 자동 통·번역 기술은 커뮤니케이션을 목표로 한다. 서로 다른 언어를 쓰는 사람과의 대화, 콘텐츠와 사람의 소통, 기계와 인간의 이해, 그 끝에 정말 다다를 수 있을지는 모르지만, 더 많은 정보를 얻어야 하고, 더 많은 사람과 만날 수 있고, 로봇 같은 새로운 존재와 같이 일할 수밖에 없는 상황으로 바뀌어 가는 지금, 결코 중단할 수 없는 너무 당연한 시도 아닐까?

※이 칼럼은 해당 필진의 개인적 소견이며 삼성디스플레이 뉴스룸의 입장이나 전략을 담고 있지 않습니다.