말뭉치로부터 추출된 통계 정보를 활용한 한국어 복합명사
A Korean Revision System Using the governal and collocational relation between words
채영숙, 권혁철*
* 자연과학대학 전자계산학과(인공지능, 자연언어처리)
요약
본 논문은 정보 검색이나 기계 번역과 같은 자연 언어 처리 응용 분야에서 자주 거론되는 복합명사의 결합 관계를 규명하여 구조로 인해 발생하는 중의성 해결을 목적으로 한다. 말뭉치로부터 추출된 명사들간의 분리 정보(Segment Information)와 상호 정보(Mutual Information) 구축을 통해 복합명사의 분해 및 합성 과정에서 발생하는 구조에 따른 결합 관계를 분석, 판단한다. 즉, 단위명사가 분리되는 위치에 따른 분리 정보와 두 단위 명사의 결합 정도를 나타내는 상호 정보 통계치를 이용해 복합명사의 통사적 결합 구조를 살펴 보는 것이다. 시스템 구축을 위해 사용된 말뭉치는 3년치 6개 일간지의 정치, 경제면을 대상으로 하여 300,000어휘 정도의 복합명사 사전을 구축하였고, 실험을 하기 위해 사용된 말뭉치는 6개월 분량의 부산일보 정치, 경제면에서 추출된 복합명사로서 약 412,773어절이다. 세 개의 단위 명사로 구성된 복합명사의 결합 구조를 분석한 결과 두 번째, 세 번째 명사가 중심어가 되는 구조가 62.87%로 나타나며, 색인어의 유형은 세 개의 단위 명사로 구성된 복합명사의 경우는 단 하나의 복합명사만이 아니라 90.13%가 네 가지 종류의 명사가 색인어로 채택될 수 있음을 보여준다.

어절 간 연관 관계를 이용한 한국어 문법 검사기
김현진, 권혁철*
* 자연과학대학 전자계산학과(인공지능, 자연언어처리)
Abstract
지금까지의 한국어 철자 검사/교정기는 한 어절 내의 철자법 오류와 입력 오류 등을 처리하였다. 그러나 한국어 문서에는 여러 어절을 검증해야만 처리할 수 있는 의미 오류와 문체 오류가 많이 있다. 이런 의미나 문체 오류를 처리하기 위해서는 의미 분석을 해야하나, 현재의 기술로는 한계점이 많다. 그래서 이 논문에서는 어절 간의 연관 관계와 이 연관 관계를 인식하기 위해 부분적 문법 관계를 적용한 한국어 문법 검사기를 제안한 다. 한국어 문서에서 많이 나타나는 오류를 분류해서 이것을 규칙베이스화한다. 그리고 이러한 오류를 효율적으로 검증하기 위해 '데몬 프로그래밍'을 이용한다. 기존 철자 검사/교정기가 형태소 단위 분석 기법을 이용하였다면 이 논문에서 제안한 방식은 문장 단위의 분석 기법으로 발전하는 과정이라 할 수 있다.
한국어 정보검색 시스템을 위한 다양한 적합성 피드백 방법
박수현, 권혁철*
동서 대학교 정보 시스템 학부 컴퓨터공학 전공,
*자연과학대학 전자계산학과(인공지능, 자연언어처리)
Abstract
정보검색 시스템의 검색 효율 향상을 위해서 다양한 적합성 피드백 방법이 개발되었다. 그러나 한국어 정보검색 시스템을 위한 적합성 피드백에 대한 연구는 거의 이루어지지 않은 실정이다. 이 논문에서는 기존에 개발된 적합성 피드백 방법을 한국어 정보검색 시스템에 적용하여 검색 효율을 비교하고, 새로운 적합성 피드백 방법을 개발 적용하여 기존의 방법들과 검색 효율을 비교 분석하였다. 적합성 피드백은 원질의문을 확장할 단어 선택과 선택된 단어 가중치 부여로 이루어진다. 원질의문이 입력되면 검색된 적합문서에서 원질의문의 단어와 밀접한 관계가 있는 단어를 선택하여 가중치를 부가한 후, 원질의문에 추가하여 질의문을 확장한다. 이 논문에서는 원질의문 확장을 위한 단어 선택과 단어 가중치 부여를 위해 3가지 값을 사용한다. 첫째, TF는 적합문서 내의 단어 빈도의 총합이다. 둘째, idf 는 해당 문서집단의 역문헌빈도이다. 셋째, r/R은 검색된 적합문서 중에서 해당 단어가 있는 적합문서의 비율을 나타낸다. TF와 idf는 정보검색 시스템에서 일반적으로 사용되는 값이고 r/R은 이 논문에서 제안한 새로운 값이다.


Pusan National University Artificial Intelligence Laboratory.
webmaster@bandi.cs.pusan.ac.kr