>>>앞의 글에서 이어집니다
https://winterlight.tistory.com/47
******다음의 포스팅의 내용 중에서, 파란색 글씨로 된 내용을 제외한 검은색 글씨로 된 텍스트는 <언어 풀어쓴 언어학개론> (강범모, 한국문화사) 에서 가져온 부분임을 밝힙니다.(그대로 가져온 부분도 있지만 대부분은 본인의 스타일로 정리함)******
파란색으로 된 내용은 개인적인 의견 또는 스스로 알고 있는 것을 정리한 내용임
+ 제13장 언어와 컴퓨터, 전산언어학
3. 응용 시스템
기타 응용 시스템
문서요약(text summarization)은 수없이 쏟아져 나오는 문서들을 자동적으로 요약하여 제시함으로써 사용자를 도와주는 시스템이다. 그 대체적인 절차는 주어진 문서로부터 그 문서의 내용을 적절히 반영하는 용어와 정보내용을 찾아내고, 그것들을 적절히 조합하여 자연스러운 언어표현으로 산출해 내는 것이다. 문서에 자주 등장하는 단어나 표현을 고려하고, 주변에 요약 표현이 있음을 암시하는 여러 가지 표현들-'to sum up', 'summing up', '요약하자면', '다시 말해서' 등-을 이용하고 적절한 생성 기술을 사용하여야 한다. 하나의 문서에 대한 요약뿐 아니라 여러 문서에 대한 요약도 시도할 수 있는데, 당연히 후자의 난이도가 높다. 나는 논술이나 국어 시간에 긴 지문을 내가 직접 요약을 해 본적은 있어도 문서요약이라는 자동시스템이 있는 줄은 몰랐다. 이런 시스템이 있다니, 정말 편리하고 신속하게 요약을 할 수 있을 것 같은데 진짜 제대로 요약을 해주는지가 궁금하다.
전문용어(term)를 컴퓨터로 처리하는 기술도 개발되어 사용된다. 현대의 빠른 지적, 기술적 발달 속에서 각 전문분야는 끊임없이 새로운 용어를 만들어내고 사용한다. 이러한 전문용어들은 일반 사전에 없거나 사전에 있더라도 전문용어로서의 뜻으로 등재되어 있지 않다. 따라서 전문분야의 문서를 처리해야 하는 컴퓨터 시스템은 전문용어를 처리할 수 있는 기술을 갖추어야 한다. 크게 보아 두 가지 일이 있는데, 하나는 새로운 전문용어를 자동적으로 추출하는 것이고 다른 하나는 이미 알고 있는 전문용어를 문서 속에서 찾아내는 일이다. 이러한 일들은 문서의 자동 색인(indexing)에 직접적으로 이용된다.
텍스트 데이터마이닝(data mining)은 수많은 문서를 처리하여 숨겨진 의미 있는 정보를 찾아내거나, 전반적인 경향을 파악해주는 시스템이다. 원래 데이터마이닝은 주어진 다용량 데이터베이스를 기반으로 이와 같은 일을 해 주는 기술을 말하지만, 텍스트를 기반으로 할 때에는 전산언어학 기술이 필요하다. 텍스트 데이터 마이닝이라는 시스템도 처음 알게되었는데, 이런 것들을 내가 직접 하고 내가 아니더라도 다른 사람이 직접 하는 것만 봐와서 이런 시스템이 있다는 것이 정말 놀랍고 이정도로 기술이 발전되었다는 것에 감사하다. 문서의 숨어있는 의미나 정보를 알려주고 경향까지 파악해주다니 사람보다 나을 수 있겠다는 생각이 든다. 사실 이런 시스템도 사람이 만들어낸 지식의 산물이지만, 이런 일을 제대로 하는 사람이 많지는 않으니 말이다.
대화 시스템(dialogue system)도 전산언어학의 중요한 응용 분야이다. 대화란 여러 명이 참여하여 의사소통을 하는 상황이다. 컴퓨터는 방대한 지식을 데이터 베이스로 저장할 수 있기 때문에 사람과 대화를 하면서 전문지식을 포함하여 필요한 정보를 줄 수도 있다. 대화의 매개는 특정 제약이 있는 단순한 언어 형식일 수도 있고 그러한 제약이 없는 일반 언어일 수도 있다. 나아가 컴퓨터와 대화 수단이 음성, 키보드, 몸짓 등일 수도 있다. 컴퓨터가 인간과의 대화를 통하여 정보제공자의 역할을 할 수도 있고, 공부를 가르쳐 줄 수도 있고, 단순히 대화의 상대로서의 역할을 할 수도 있다. 단순한 대화의 기능도 노령화 사회에서는 매우 필요한 것이다.
제13장 언어와 컴퓨터, 전산언어학
4. 코퍼스언어학
언어와 컴퓨터를 이용한 언어 연구는 코퍼스언어학(corpus linguistics)의 관점에서 볼 수도 있다. 코퍼스언어학은 코퍼스를 구축하고 그것을 기반으로 언어에 관한 이론 연구와 응용 연구를 하는 학문 분야이다. 여기서 코퍼스란 텍스트, 즉 산출된 말 혹은 글의 집합을 말한다. 넓은 의미의 코퍼스는 어떤 방식으로든지 그리고 어떤 형태로든지 여러 텍스트를 모아놓은 것을 말하지만, 현대의 코퍼스는 예를 들어 근대 소설 연구 혹은 현대 국어 일반의 연구 등, 특정 목적을 가지고 균형성과 대표성을 고려해 텍스트들을 모아서 컴퓨터에 전자(비트) 형태로 저장한 것을 말한다. 따라서 코퍼스언어학은 컴퓨터 코퍼스 언어학이다. 컴퓨터 코퍼스는 연구자가 실제 언어 생활의 양상을 있는 그대로 관찰해 언어를 실증적으로 연구할 수 있는 방법을 언어학에 제시했을 뿐만 아니라, 정보사회에서 가장 중요한 정보처리의 대상인 언어정보의 처리 기술 발전에도 중요한 역할을 하고 있다.
최초의 컴퓨터 코퍼스는 1060년대 초 미국 브라운대학에서 만들어졌다. 이것은 1백만 어절 규모의 미국 영어 텍스트 자료인데 보통의 책 약 20권의 분량이다. 오늘날의 기준으로 보면 아주 작은 규모이지만 당시 컴퓨터 입력의 수단이 키펀치였던 것을 고려하면 엄청난 수고의 결과였다. 브라운 코퍼스를 기반으로 영어 단어의 사용 빈도가 실증적으로 측정돼 언어 교육 및 심리학에 도움을 주기는 했으나 코퍼스의 규모가 작았기 때문에 그 효용성은 제한적이었다. 코퍼스가 언어학에 큰 영향을 미친 사건은 1980년대에 영국 버밍햄대학이 콜린스 출판사와 손잡고 2천만 어절 규모의 코퍼스를 구축하고 이것에 기초한 코빌드(COBUILD) 영어 사전을 편찬한 것이었다. 이전가지의 언어 사전이 사전 편찬자의 직관에 의존하거나 수작업을 통한 제한적인 용례 수집에 의존하였던 것에 비해 코빌드 사전은 대용량의 컴퓨터 코퍼스에 기초하여 올림말을 결정하고, 단어 의미를 기술하며, 사람들이 많이 사용하는 자연스러운 용례를 찾아 사전에 수록할 수 있었다. 그 이후, 사전 편찬에서 코퍼스는 필수적인 수단으로 인식되었으며, 우리나라에서도 국립국어원에서 편찬한 <표준국어대사전>(1999) 등 모든 주요 사전 편찬 사업이 코퍼스에 의존하고 있다. 1990년대 이후 코퍼스의 크기는 1억 어절 이상이 일상적으로 되었으며, 영국 국가 코퍼스(British National Corpus, BNC)가 대표적인 대용량 코퍼스이다.
코퍼스는 중요한 언어 자원이다. 이것은 이론적 언어 연구의 기반이 될 뿐만 아니라 사전 편찬과 언어 교육의 응용 분야에서 없어서는 안 될 중요한 자원이다. 외국어를 교육할 경우, 가장 많이 쓰는 자연스러운 표현들을 중요시하여 먼저 학습시키는 것이 필요하다. 또한 외국어를 배우는 사람들의 언어를 수집한 코퍼스(학습자 코퍼스)는 언어 학습에서 범하기 쉬운 오류를 발견하게 해 효과적인 외국어 교육에 도움을 줄 수 있다. 코퍼스는 또한 문학, 역사 등 텍스트 기반의 전통적 인문학에 새로운 방법론을 제시할 수 있다. 그리고 신문 자료 코퍼스는 사회 변동 연구 등 사회과학적 연구에도 활용될 수 있다. 아울러 자연언어처리, 정보검색, 기계번역 등 컴퓨터의 언어 처리에서 코퍼스에 기초한 통계적 정보가 점점 더 중요시되고 있다. 두 언어의 문장들을 병치시켜 만든 병렬 코퍼스는 언어교육 뿐 아니라 기계 번역 시스템 개발에도 큰 도움을 줄 수 있다.
'공부 > 언어학개론' 카테고리의 다른 글
<언어학개론>제14장 언어와 생활, 응용언어학-1.응용언어학의 분야& 2. 언어 교육 (0) | 2020.04.21 |
---|---|
<언어학개론>제13장 언어와 컴퓨터, 전산언어학-5. 하이퍼텍스트&6.인터넷과 월드와이드웹 (0) | 2020.04.20 |
<언어학개론>제13장 언어와 컴퓨터, 전산언어학-3. 응용 시스템 (0) | 2020.04.20 |
<언어학개론>제13장 언어와 컴퓨터, 전산언어학-2. 자연언어처리 (0) | 2020.04.20 |
<언어학개론>제12장. 언어와 문학, 텍스트 장르와 문체-4. 텍스트 장르와 언어 특성 &제13장. 언어와 컴퓨터, 전산언어학-1. 전산언어학이란? (0) | 2020.04.20 |