본문 바로가기
공부/언어학개론

<언어학개론>제13장 언어와 컴퓨터, 전산언어학-3. 응용 시스템

by springwintercoming 2020. 4. 20.

>>>앞의 글에서 이어집니다

 

https://winterlight.tistory.com/46

 

<언어학개론>제13장 언어와 컴퓨터, 전산언어학-2. 자연언어처리

>>>앞의 글에서 이어집니다 https://winterlight.tistory.com/45 <언어학개론>제12장. 언어와 문학, 텍스트 장르와 문체-4. 텍스트 장르와 언어 특성 &제13장. 언어와 컴퓨터, 전산언어학-1. 전산언어학이란? >>>..

winterlight.tistory.com

 

******다음의 포스팅의 내용 중에서, 파란색 글씨로 된 내용을 제외한 검은색 글씨로 된 텍스트는 <언어 풀어쓴 언어학개론> (강범모, 한국문화사) 에서 가져온 부분임을 밝힙니다.(그대로 가져온 부분도 있지만 대부분은 본인의 스타일로 정리함)******

 

파란색으로 된 내용은 개인적인 의견 또는 스스로 알고 있는 것을 정리한 내용임

 

 

제13장 언어와 컴퓨터, 전산언어학

 3. 응용 시스템

 

음성인식과 음성합성

 

  전산언어학은 이론적 연구를 바탕으로 실제 실용적인 시스템을 구현하는 것을 목표로 한다. 음성인식의 경우, 실제 생활에서 쓰이는 시스템을 만들려는 노력이 통신회사를 비롯하여 여러 기관에서 시도된다. 음성인식 기술은 외국어 교육과 의료기기, 자동차에도 이용된다. 영어 발음의 문제를 기계적으로 파악하여 올바른 발음과의 차이를 제시하는 사용 제품이 나와 있다. 사용자가 영어 단어를 발음하면 억양이나 악센트 등 요소별로 분석해 현지인의 발음과 비교, 진단해 준다.

  음성인식 내시경 기기와 로봇 수술 기계는 의사가 수술을 하면서, 간호사를 통하여 내시경의 위치나 방향을 조정하는 것이 아니라, 음성을 통한 의사의 직접적인 지시에 따라 내시경 기기가 작동하게 된다. 수술의 정확도가 높아지고 수술 시간이 단축된다. 자동차 안에서 라디오, 텔레비전, 내비게이션, CD 플레이어, MP3, 인터넷, 텔레매틱스 시스템 등 20여 가지 기능을 말 한마디로 켰다 껐다 할 수 있는 통합 멀티 미디어 시스템도 있다. '텔레매틱스'(telematics)는 'telecommunications'와 'informatics'가 합성된 단어이다. 운전자가 운전 중 외부 세계와 의사소통을 하여 지능적 판단을 내릴 수 있도록 도와주는 장치로서, 대표적인 것이 인공위성을 이용한 내비게이션 시스템이다. 운전을 하면서도 말로 지시하여 목적지의 교통상황 및 생활 정보를 시시각각으로 받을 수 있다. 이때 필요한 정보를 음성으로 들려주는 데에는 음성합성 기술이 필요하다. 자동차 산업에서 텔레매틱스는 운전자의 편의성과 안전성을 위한 획기적인 기술로 그 적용 가능성이 무궁무진하다. 텔레매틱스 시스템에서 운전자와 기기의 의사소통을 위해 음성 처리 기술이 절대적으로 중요하다. 음성인식과 음성합성 기술을 이용하여 제한적이나마 아이와 대화할 수 있는 장난감도 만들어진다. 이것보다 좀 더 발전된 형태가 사람과 대화를 나눌 수 있는 로봇이다.

  신뢰성이 있는 정확도를 전제로, 음성인식을 통한 전자서명도 가능하다. 우리나라의 전자서명법에는 지문인식, 홍채인식과 더불어 음성인식으로 전자서명이 가능하도록 되어 있다. 인식률이 높은 음성인식 기술의 발전은 귀가 안 들리는 장애인의 의사소통을 매우 편하게 해 줄 것이다. 또 말을 하면 글로 바꾸어 주는 음성타자는 손으로 하는 타자보다도 훨씬 빠르게 문서를 만들어 줄 것이다. 반대로 훌륭한 음성합성기술은 TTS(text-to-speech) 시스템을 통하여 글을 말로 바꾸어 줌으로써 시각 장애인에게 많은 도움을 줄 것이다.

 

기계번역

 

  전산언어학의 가장 종합적인 응용시스템은 기계번역(machine translation) 시스템이다. 한 언어의 말(음성)을 다른 언어의 말로 통역하는 시스템을 만드는 데에는 음성인식과 음성합성 기술이 필요하다. 그리고 전산형태론, 전산통사론, 전산의미론의 기술이 필요하다. 한 언어의 문자언어를 다른 언어의 문자언어로 자동으로 번역하는 시스템은 음성처리의 기술이 필요하지 않겠지만, 형태, 통사, 의미 처리의 기술이 필요하다. 그리고 모든 기술은 분석의 방향과 생성의 방향 모두에서 필요하다.

  기계번역은 쉬운 일이 아니다. 전산언어학의 요소 기술 하나하나가 만만한 일이 아니기 때문에 그것을 종합적으로 구현하기는 더욱 어렵다.

  영어와 한국어가 워낙 구조의 차이가 심하기 때문에 기계번역이 힘들고 아직(거의) 완벽한 시스템이 개발되지 않았다고도 할 수 있다. 이에 비하여 문장 구조가 비슷한 우리말과 일본어 사이의 번역 시스템은 실용적으로 쓸만한 것들이 꽤 있다. 유럽에서는 시스트랜(SYSTRAN)이란 다국어 기계번역 시스템이 개발되어 영어, 프랑스어, 독일어, 스페인어 등 주요 유럽 언어들 사이의 기계 번역에 사용된다. 대부분 동일한 어족에 속하는 언어들인 만큼, 한국어와 영어 사이의 번역보다는 쉽게 고품질의 번역을 얻을 수 있다. 시스트랜, 그리고 바벨피시, 구글 언어 도구 등 기계번역시스템은 서양어뿐만 아니라, 불완전하게나마, 한국어와 다른 언어들 사이의 번역도 제공한다. 나는 기계번역의 대표적인 예가 구글 번역기나 파파고라고 생각하는데, 사실 나는 번역기를 그렇게 자주 이용하지는 않는다. 파파고도 친구가 옛날에 알려줘서 파파고라는 번역 시스템이 있다는 것을 알게 되었다. 그 친구가 이러이러한 한국말을 영어로 어떻게 말하는게 자연스러운지 나에게 물어봤을 때 나는 당연히 내 머릿속에서 내가 알고 있는 내용을 바탕으로 알려주었었다. 그런데 그 친구는 이미 파파고에 쳐서 번역을 했다며 파파고 진짜 편하다고, 너는 그동안 파파고 안쓰고 니가 직접 영어번역을 해왔냐고 물었을 때 굉장히 놀랐던 기억이 있다. 당연히 나는 영어로 글을 쓰거나 우리말로 된 것을 영어로 번역해야 할 때 내가 직접 해왔다. 지금도 마찬가지이다. 기계 번역이 아무리 발전했다고는 해도, 내가 말하고자 하는 포인트를 못잡을 때가 많고 정말 번역기스럽게, 부자연스럽게 번역을 하는 경우가 대부분이기 때문이다. 파파고나 구글 번역기가 정말 많이 발전된 번역기이지만, 사람이 하는 것만큼의 자연스러움을 따라올 수는 없다고 생각한다. 그나마 영어는 나은 편인데, 다른 외국어의 번역은 그게 더 심한 것 같다.

  어떤 기계번역 시스템이든지 모든 문서를 완전하게 번역할 수는 없다. 문학 작품의 기계번역은 애초부터 불가능한지도 모른다. 그러나 특정한 상황에서 사용되는 텍스트에 국한하여 실용적인 시스템을 개발하는 것은 가능하다. 그러한 텍스트에는 해당 언어의 모든 특성이 나타나지 않고 어휘와 구조가 제한되고 정형화되어 있다. 이러한 언어를 부언어(sublanguage)라고도 부르며, 부언어의 전산처리는 상대적으로 용이하다. 예를 들어, 영어와 프랑스어를 공용어로 사용하는 캐나다에서는 일기예보를 기계로 번역하는 시스템을 오래 전에 이미 개발하여 사용한다. 일기예보의 언어는 하나의 부언어이다.

 

정보검색

 

  넓은 의미의 정보검색(information retrieval)은 사용자가 요청하는 정보를 줄 수 있는 문서, 이미지, 영상, 음향 등을 찾아주는 기술이다. 오늘날 인터넷이 일상화되어 있는 환경에서 우리는 구글, 네이버, 야후 등 검색 사이트를 통하여 필요한 정보를 찾는다. 정보검색은 우리의 일상생활이다.

  전산언어학과 밀접한 관련이 있는 것은 필요한 문서, 즉 텍스트를 찾아주는 검색이다. 문서 정보검색의 단순한 절차는 사용자가 제시한 검색어에 대하여 그 검색어가 들어있는 문서들을 찾아주는 것이다. 이때 최소한 어간 호은 어근을 분리하는 절차가 필요하다. 예를 들어 최근 1개월 사이의 신문 기사에 나타난 '언어' 문제를 살피고자 한다면 신문기사 중 '언어'라는 어절이 들어간 것들뿐 아니라 '언어가, 언어를, 언어는' 등의 어절이 들어간 것들도 검색해 주어야 할 것이다.

  언어학적 분석을 전혀하지 않거나, 어간 분리(stemming) 혹은 간단한 형태소 분석만을 사용한 정보검색 시스템은 실제로 필요이상의 검색 결과를 줄 수 있다. '감기'와 관련된 문서를 검색할 경우 '감기는 쉬어야 낫는다'가 들어 있는 문서를 제대로 찾아주기도 하지만 '실이 감기는 기계가 발명되었다'가 들어 있는 문서도 찾아줄 것이다. 반대로 이러한 정보검색 시스템은 원하는 문서 모두를 찾아주지도 못한다. 예를 들어 '개'에 관심이 있어 그와 관련된 문서를 검색하고자 할 경우 '불독', '셰퍼드', '치와와' 등이 들어있는 문서를 찾아주지 못한다. 따라서 실제 효율적인 정보검색 시스템은 여러 가지 확률적, 언어학적 지식을 이용하여 사용자가 원하는 모든 문서들을, 그리고 원하는 문서들만을 찾아주는 것을 목표로 한다. 그 중 한 가지 방법은 단어들 사이의 관계망을 이용하는 것이다.