국제 관계

통신 세계에 새로운 가능성을 여는 음성 번역 기술

Jacqui Griffiths
27 April 2015

한 종류의 구어를 다른 언어로 번역하는 음성 번역(Speech-to-Speech Translation)이라는 기술이 인간의 소통 방식에 혁신을 가져올 것으로 기대된다. 최근의 기술 발전으로 사용하는 언어에 관계없이 물 흐르듯 자연스럽게 소통할 수 있는 도구 개발에 박차를 가할 수 있게 됐다.

공상 과학 영화 스타 트랙을 기억하는가? 이 영화에서는 2150년경 범용 번역기가 발명되어 문화권이 달라도 즉각적인 의사소통이 가능해지는데, 실제로는 그 시기가 앞당겨질 지도 모르겠다.

2014년 5월에 열린 연간 미디어 및 기술 컨퍼런스(Code Conference)에서 Microsoft가 사상 처음으로 Skype Translator 앱을 공개 시연했다. 영어를 구사하는 온라인 화상 채팅 솔루션 회사인 Skype의 부사장 거디프 싱 팔(Gurdeep Singh Pall)과 Microsoft CEO 사티아 나델라(Satya Nadella)가 독일어를 구사하는 Microsoft 직원 다이아나 하인리히스(Diana Heinrichs)와 무리 없이 대화를 나누는 모습을 보여줬다. 앱이 실시간으로 그들의 대화를 번역한 덕분이었다.

이와 같은 시연은 대중의 상상력을 자극한다. 전 세계 연구팀들이 구사하는 언어에 관계없이 서로의 의사를 더욱 정확히 이해하는 데 도움이 될 번역 도구를 개발하는 데 박차를 가한 것도 같은 맥락이다. 궁극적으로 번역 도구는 문화적 차이를 고려하면서 장벽을 허물기 때문에 세계 여행, 해외 교역, 그리고 문화간 의사소통에 수반되는 여러 가지 어려움이 해소될 것이다.

아직은 미완성

최신 음성 번역 도구에는 인간 뇌의 활동을 모방하여 이전보다 훨씬 나은 결과를 도출하는 최신 신경망 학습 방식을 비롯한 다수의 기술들이 결합되어 있다.

그러나 정확한 실시간 음성 번역 도구가 현실화 되려면 여전히 가야 할 길이 멀다. 2010년에 20%었던 잘못된 단어 선택률이 2013에 약 12%로 줄어, 평균 오류율은 줄었지만 컴퓨터는 아직 대화의 모든 상황을 제대로 인식하지 못한다.

음향, 신호 처리 및 관련 정보 기술을 전문으로 하는 우주방위 산업의 거대 기업 Raytheon의 자회사이자 미국 매사추세츠에 본사를 두고 있는 Raytheon BBN Technologies의 수석 과학자 션 콜배스(Sean Colbath)에 따르면 "현재의 음성 번역은 문어적인 문장을 번역하는 데 초점이 맞춰져 있습니다. 음성 번역 도구는 비문법적 문장, 맥락, 구어의 모호성을 인식하지 못합니다. 예를 들어, 문장 중간에 이름이 삽입된 경우, 제 기능을 하지 못하고 문자 그대로 해석합니다. 또는 버스가 언제 도착하는지 물은 다음, 요금이 얼마인지 물을 경우, 두 문장을 연계시키지 못하지 때문에 버스 요금을 묻는다는 사실을 이해하지 못합니다."

그럼에도 음성 번역 기술이 장족의 발전을 이룬 것만은 분명하다.

업계의 적극적 관심

최근까지만 해도 응용 분야가 지극히 한정적이었던 음성 번역 기술이 주류로 급부상하면서 대형 투자사들의 관심을 끌고 있다. 가령, Facebook은 Jibbigo이라는 음성 번역 앱을 개발한 기업을 인수했으며 Google은 Google Translate의 일환으로 80개 언어를 지원하는 음성 번역 기능을 선보였다. 한편 미국의 다국적 통신 서비스 제공업체인 AT&T의 연구 개발 사업부인 AT&T Labs는 클라우드 기반 음성 인식, 언어 번역 및 음성 합성 엔진을 활용하는 방안에 관한 연구에 박차를 가하고 있다.

AT&T Labs의 핵심 기술 인력인 스리니바스 방갈로르(Srinivas Bangalore)에 따르면 "음성 번역 관련 기술이 크게 나아졌습니다. 오류 없는 번역이 현실화될 날이 오려면 아직 멀었지만 실제 서비스에서는 우수한 사용자 인터페이스로 이런 제약을 최소화할 수 있습니다. 이와 같은 서비스는 이미 실효성 면에서 상당한 효과를 거두고 있습니다."

“ 음성 번역이 언어 장벽을 사실상 해소함에 따라 국제 비즈니스 통신이 진일보할 것으로 예상됩니다.”

올리버 폰타나
Microsoft 기계 번역 사업부의 프로그램 관리자

제한적인 대화

오늘날의 음성 번역이 가장 우수한 효과를 발휘하는 경우는 음성 번역 기술이 대처하기에 충분한 범위로 대화의 주제가 한정된 경우이다. 영국에 본사를 둔 번역 회사인 Kwintessential의 마케팅 책임자 닐 페인(Neil Payne)에 따르면 "음성 번역 기술은 맥락, 몸짓 언어나 감정과 같은 미묘한 메시지를 감지하지 못합니다. 그러나 대화의 범위가 지극히 한정된 상황, 이를테면 의사와 환자의 대화 같은 특정 상황에는 효과적입니다."

카네기 멜론 대학교(Carnegie Mellon University) 산하 언어 기술 연구소(Language Technologies Institute)의 컴퓨터 과학자 겸 언어 합성 전문가 앨런 블랙(Alan Black)도 같은 의견이다. "현재로서는 국제 구조 작업처럼 다른 언어를 모르는 사람들과 소통해야 하는 상황에서는 언어 번역이 가장 유용합니다. 미얀마에서 난민을 구조하는 상황을 예로 들어봅시다. 지역 의과 대학이 난민들을 치료하는데 의사가 그들의 언어를 구사할 줄 모르고 통역사를 확보하기도 여의치 않을 경우, 언어 번역 기술이 대단히 유용하게 사용될 수 있습니다."

이와 같이 한정된 용도에서 쌓은 노하우는 더욱 폭넓게 응용할 수 있는 기술을 개발하는 밑거름이 될 것이다.

Raytheon BBN의 콜배스에 따르면 "Raytheon BBN은 미 군사용 음성 번역 기술을 개발했습니다. Raytheon BBN의 연구는 음성 번역 기술의 이면에 있는 과학을 이해하는 데 주안점을 두고 있습니다. 그러나 Raytheon BBN은 국경과 일반 사용자와 같은 영역까지 군용 음성 번역 기술의 응용 범위를 넓히는 데도 관심을 기울이고 있습니다. 이런 영역까지 확대되면 대화 범위 역시 더 넓어지기 마련입니다. 이를테면 여행자가 병에 걸리거나, 망명을 신청하거나 또는 질문을 할 수 있는데 이런 상황을 소화하기에는 아직 기술이 미흡한 실정입니다. 그래서 Raytheon BBN은 대화가 원활하게 이뤄질 수 있도록 음성 번역 기술이 인식하는 맥락과 의미의 공감대를 넓히는 데 주력하고 있습니다."

장벽 타파

기술의 변수가 넓어지는 만큼, 다양한 사용자의 의사소통 수단을 쇄신할 수 있는 기회도 커질 것이다.

미국 워싱턴 주 레드몬드에 위치한 Microsoft 기계 번역 사업부의 프로그램 관리자 올리버 폰타나(Olivier Fontana)에 따르면 "음성 번역이 언어 장벽을 사실상 해소함에 따라 국제 비즈니스 통신이 진일보할 것으로 예상됩니다."

미국 유타 주 리하이에 본사를 둔 자동 번역 도구 제공업체인 Lingotek의 CTO이자 컴퓨터 언어학자인 애런 데이비스(Aaron Davis)의 의견도 비슷하다. "웹 기반 실시간 통신 기술과 접목된 음성 번역은 국제 다중 사용자 화상 회의에 효과적으로 활용될 수 있습니다. 서로 다른 언어에 익숙한 사람들에게 번역 결과나 자막을 제공할 수 있다면 메시지가 정확히 전달된다는 믿음이 생기기 마련입니다."

데이비스는 음성 번역 기술은 엔터테인먼트 산업에도 효과적으로 응용될 수 있다고 믿는다. "비디오 게이머들은 이미 음성 프롬프트를 이용하고 있지만 앞으로는 전 세계 게임 파트너의 사용 언어로 번역되는 채팅을 통해 의사를 주고 받을 수 있을 것입니다."

또 다른 전도유망한 응용 부문으로는 관계 개선이 손꼽힌다. 폰타나에 따르면 "음성 번역 덕분에 지리적으로 분산되어 있는 친구나 가족의 소통 방식에 새로운 가능성이 열릴 것입니다. 예를 들어, 중국에 사는 할머니와 영국에 사는 손자가 서로 다른 언어를 사용하더라도 원활하게 대화를 나눌 수 있는 것입니다."

문화 연결

음성 번역 기술이 다른 언어에 대한 학습 욕구를 반감시킬 수 있다는 우려가 들지도 모르지만 연구 결과로 봐서는 적어도 지금까지 그런 일은 벌어지지 않고 있다. 데이비스에 따르면 "음성 번역에 대한 연구 결과에서는 문화적 이득이 부각되고 있습니다. 사람들이 의사소통을 위해 굳이 영어를 배울 필요가 없게 되면 그들의 문화가 더 온전하게 보전되는 경향을 보입니다. 언어가 문화에 직접적인 영향을 미치기 때문입니다."

AT&T Labs의 방갈로르는 음성 번역 기술로 인해 문화가 서로 다른 사람들간의 소통이 더욱 활발해질 것으로 생각한다. "음성 번역 기술로 무장한 사람들은 다른 언어를 구사하는 사람들과 더 적극적으로 소통할 가능성이 높으므로 언어적, 문화적 시야가 더 넓어지게 됩니다."

폰타나도 그 의견에 동의한다. "음성 번역 기술이 언어 교육의 민주화와 보편화를 불러올 것입니다. 뿐만 아니라 음성 번역 기술이 없었다면 엄두도 못 냈을 사람들과 소통할 수도 있을 전망입니다. 특히, 음성 번역 도구는 새로운 언어를 배우는 사람들이 더욱 자신감을 갖고 본인의 숙련도를 시험해볼 수 있는 예비 도구로도 손색없습니다".

“사람들이 원하고 있고 그 만큼 투자하고 있기 때문에 결국, 음성 번역 기술이 일상 대화를 지원할 수 있는 수준까지 발전할 것으로 확신합니다.”

앨런 블랙
카네기 멜론 대학 산하 언어 기술 연구소 언어 합성 전문가

미래 지향적

원활한 실시간 번역이 가능해지려면 몇 년 더 기다려야겠지만 음성 번역 기술이 점진적으로 확장되면서 다양한 소통을 지원할 수 있게 됐다.

그러나 데이비스는 기술 발전에 대해 "이 정도면 됐다"는 자아도취에 빠져선 안 된다고 경고한다. "번역 수준 면에서 어느 정도의 결함을 용인한 채 널리 애플리케이션을 보급할 경우, 더 이상 완성도를 높일 수 없으므로 안정기에 접어들었다는 섣부른 결론에 도달하게 될 것입니다. 오류율이 10%에 불과하더라도 미묘한 뉘앙스는 포착하지 못합니다. 그래서 그 10%가 의사소통에 치명적인 영향을 미칠 수 있는 것입니다."

카네기 멜론 대학의 블랙은 발전 속도가 이대로 유지된다면 음성 번역 기술이 훨씬 더 많은 요구와 기대에 부응하는 수준으로 발전할 것이라고 믿고 있다. "다른 인공 지능과 마찬가지로 음성 번역 기술이 진일보할 때마다 그 잠재력도 커질 것입니다. 음성 번역 기술이 완벽해지는 날은 결코 오지 않겠지만 사람들이 원하고 있고 그 만큼 투자하고 있기 때문에 결국, 음성 번역 기술이 일상 대화를 지원할 수 있는 수준까지 발전할 것으로 확신합니다."

여기를 스캔하면 Skype translator 데모를 볼 수 있습니다.
https://www.youtube.com/watch?v=cJIILew6l28

Related resources

구독

Register here to receive a monthly update on our newest content.