출처 : http://kibs.kaist.ac.kr/beginner/kbase.htm


말뭉치의 정의

말뭉치란 한 저작자의 저작 전부, 혹은 한 특정 분야의 저작 전부를 뜻하는데 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치를 말한다. 이를 정보 처리의 영역에서 효과적으로 이용하기 위해서는 한 덩어리로서의 특성, 즉 정보 처리가 대상으로 하는 언어의 총체적인 모습을 보여 주는 한 덩어리의 말뭉치라는 요건을 만족하는 구성을 지녀야 하며, 그 내용이 정확하여야 한다. 말뭉치는 자연 언어 처리에서 요구되는 언어 정보를 얻을 수 있는 자료원이라는 의미 외에 말뭉치를 수집, 정리 및 분석하는 작업 자체가 또한 좁은 의미의 자연 언어 처리라는 점과 잘 만들어진 말뭉치는 자연 언어 처리 결과물의 testbed로 사용될 수 있다는 점에서 그 이용 가능성이 널리 인식되고 있다.


말뭉치 구축의 단계와 문제점

일정한 규모의 말뭉치를 구축할 때 그 구축 단계는 다음과 같이 정리될 수 있다.

첫째, 적절한 규모와 말뭉치의 범위를 결정한다.
한 언어의 실상을 제대로 보여주기 위해서는 말뭉치의 규모가 클수록 좋다고 생각하기 쉽다. 그러나, 말뭉치의 규모보다는 그 내용이 얼마나 균형잡힌 것이냐, 즉, 대상 언어의 다양한 모습을 얼마나 많이 정확하게 보여줄 수 있느냐가 더 중요한 문제이고, 실제로 말뭉치를 구축하는 일은 시간적, 경제적 부담은 물론 앞에서도 언급했듯이 그 자체가 많은 언어학적 지식을 필요로 하는 일이기 때문에, 현실적인 요건을 고려하여 적절한 규모를 결정하는 것이 필요하다. 한편, 현실에서의 언어 사용은 그 목적과 상황에 따라 많은 변이를 보이고 있는데 (구어/문어, 일상어/격식을 갖춘 문장 등의 구별에서 알 수 있듯이) 이들 가운데 어느 것을 중심으로 할 것인가, 모든 변이를 다 포괄한다면 그 비율은 어느 정도로 할 것인가를 결정해야 한다. 어떤 영역의 언어를 대상으로 하는가에 따라 말뭉치에서 얻어지는 언어 정보가 달라질 수 있기 때문에, 분야의 결정 문제는 진행 중인 정보 처리 작업의 목표를 얼마나 잘 수행할 수 있는가를 결정하는 중요한 요소가 된다.

둘째, 텍스트의 우선 순위를 결정한다.
여러 개의 개별 텍스트가 있을 때 어떤 텍스트를 선택하여 말뭉치를 구성하느냐 하는 것은 현실적으로 매우 어려운 문제이다. 이는 앞 단계에서 언급했듯이 정보 처리 분야의 성격에 따라 결정되어야 할 것이며 특정 분야의 목적에 국한된 것이 아닌 일반 말뭉치의 경우 전형적인 언어의 모습을 보여주는 것이 중요하기 때문에, 여러 전문 영역 자료의 단순한 수집에 의미가 있는 것이 아니라, 동질적인 다양한 자료들을 모은다는 점이 중요하게 된다. 이와 아울러 결정하여야 하는 것은 텍스트의 부분만을 택할 것인가 전체를 다 넣을 것인가 하는 문제로, 텍스트 전체를 다 넣는 경우는 각 텍스트의 구조에 대한 연구 및 문체, 화용론적인 층위에서의 연구를 다 지원해 줄 수 있다는 이점이 있는 반면 작업량 및 비용의 문제가 어려워지고, 부분만을 택하는 경우는 작업량 및 비용의 측면에서 전체를 다 넣는 경우에 비해 상대적으로 유리하지만 정보 추출이 단편적이고 하위의 층위에 국한된다는 문제를 안고 있다. 따라서, 텍스트의 우선 순위는 현실적인 여건과 목적에 따라 결정되어야 할 것이다.

셋째, 문헌 목록을 검색하여 텍스트를 선정한다.

넷째, 기계 가독형으로 만든다.
텍스트를 기계 가독형으로 만드는 방법은 기계 가독형으로 된 텍스트를 활용하는 경우 (신문, 전자 출판물)와 OCR을 이용한 입력, 키보드를 이용하여 입력하는 세 가지 방법이 대표적이다. 현재 한글 처리의 수준으로는 첫째와 셋째 방법이 주가 된다. 말뭉치의 구축 및 활용과 관련해서 기억해 두어야 할 한 가지 문제는 텍스트 및 말뭉치의 저작권 문제다. 이 문제는 국내에서는 본격적으로 제기되지 않았지만, 서구에서는 자료 기반 언어 처리 연구에 큰 장애 요소로 인식되고 있으며, 상용이 아닌 연구 목적에서의 자료 이용에 대한 인식과 홍보에 의해 해결될 수 있는 것으로, 연구자들 각자의 분명한 입장 정리와 적극적인 노력이 필요한 부분이다. 한편, 내용의 입력에서 고려해야 할 사항은 TEI(Text Encoding Initiative)에 의하면 다음과 같다.

  ㄱ. 모든 서지정보를 입력해준다.
  ㄴ. 텍스트 내의 언어텍스트를 표시하는 기호를 준다.
  ㄷ. 코드 호환성을 유지한다

다섯째, 텍스트를 이용할 수 있는 형태로 가공한다.
가공에 앞서 염두에 두어야 할 사항은 원래의 텍스트가 어떤 오류나 불편한 사항들을 안고 있다 하더라도 원형은 그대로 보존하고, 목표에 맞는 형태로의 가공은 별도로 이루어져야 한다는 clean-text policy에 입각한다는 점이다. 이를 확인한 다음에 이루어질 수 있는 가공은 오류의 교정은 물론이고, 원하는 정보를 추출하기 위해 텍스트에 필요한 기호를 삽입하고, 분절하는 1차적 가공을 행한다. 여기서 또 짚고 넘어갈 점은 향후 각 연구 단위로 많은 말뭉치들이 구축될 것에 대비하여 이들 말뭉치들간의 연계를 고려하여, 호환성을 지니는 DB의 형태를 갖게 하는 일이다. 이에는 개별 연구의 성격상 많은 문제가 따를 것이나 기본적인 형태에서의 호환성은 배려할 수 있을 것이다.

여섯째, 오류 수정 및 하드웨어나 소프트웨어의 발달에 따른 사용자의 요구를 충족시키는 유지 보수를 행한다.




추가 정보
출처 : http://www.aistudy.com/linguistics/corpus.htm
말뭉치 : 쿠퍼스 링귀스틱스(Corpus Linguistics)

한국어로는 '말뭉치' 혹은 '말모둠'으로 번역하는, 코퍼스(corpus)는 글 또는 말 텍스트를 모아 놓은 것이다. 다양한 종류의 텍스트를 모아 놓은 성경은 이러한 넓은 의미에서 일종의 코퍼스이다. 혹은 셰익스피어의 저작들을 모아 놓은 것도 셰익스피어 코퍼스이다. 그러나 좀더 좁은 의미에서 코퍼스언어학의 코퍼스는 다음과 같은 기준을 만족하는 텍스트의 집합을 말한다. 우선, 코퍼스는 언어 연구를 염두에 두고 구축된다. 따라서, 코퍼스의 텍스트들은 언어 연구를 위한 어떤 기준에 의해 선택된다--현대 한국어 일반을 대표하는 코퍼스, 신문 기사 코퍼스, 일상 대화 코퍼스, 여성 작가의 소설 코퍼스 등. 그리고, 현대의 코퍼스언어학에서 말하는 코퍼스는 컴퓨터에 저장하고 컴퓨터에서 처리할 수 있는 형태의, 전자화된 텍스트, 즉 비트로 구성된 것을 말한다.

말뭉치 언어학 (Corpus Linguistics) 은 이러한 (전자) 코퍼스를 바탕으로 컴퓨터를 이용하여 언어학적 연구를 수행하는 언어 연구의 방법이다. 전통적인 문법(문법론), 의미(의미론), 어휘(사전학)의 문제를 연구하는 동시에, 전자사전(electronic dictionary / computational lexicon), 어휘데이테베이스(lexical database), 통계적 자연언어처리(statistical NLP)  등의 연구 분야를 포함한다. .........

말뭉치란 문자 또는 음성 텍스트 모듬을 가리키는 말로서, 좁은 의미로 언어 연구를 염두에 두고 구축된 텍스트를 가리키는 말이다. 신문 기사 코퍼스, 일상 대화 코퍼스, 여류 소설 코퍼스 등이 그 예이다. 아울러 말뭉치는 컴퓨터에 저장하고 컴퓨터에서 처리할 수 있는 형태의 전자화된 텍스트를 가리킨다. 즉 말뭉치 언어학은 이러한 전자 말뭉치를 바탕으로 컴퓨터를 이용하여 언어학적 연구를 수행하는 언어 연구의 방법이다. 전통적인 문법, 의미, 어휘의 문제를 연구하는 동시에, 전자사전, 어휘데이테베이스, 통계적 자연언어처리 등의 연구 분야를 포함한다.

말뭉치 언어학은 말뭉치를 기반으로 한 언어학의 한 분야로서, 1950년대 등장한 미국의 실증주의-행동주의적 구조주의 언어학자들이 실제 언어자료를 언어학의 일차적인 설명 대상으로 삼아 출발한다. 그러나 실질적인 말뭉치 언어학의 출발은 1959년 더럼(Durham) 대학, 1960년 런던 대학에서 영어 용법 조사 말뭉치(Survey of English Usage Corpus)라는 이름으로 영어의 실제 쓰임을 광범위하게 조사하기 시작한 데서부터 비롯되며, 말뭉치 연구가 본격화된 것은 브라운 대학의 프랜시스(W. N. Francis)와 쿠체라(Kucera)가 20종에 걸친 총 500편의 글에서 2000 마디씩 뽑아 총 100만 마디의 말뭉치를 구축하고 컴퓨터를 이용하여 분석한 이후부터라고 할 수 있다




+ Recent posts