단어 간 지배 관계 및 연관 관계를 이용한 한국어 교열 시스템
A Korean Revision System Using the governal and collocational relation between words
권혁철*
Hyuk-Chul Kwon**
자연과학대학 전자계산학과 부교수(인공지능, 자연언어처리)
요약
스펠러와 같은 오류 처리 기법은 한 어절 사이의 처리에 국한되거나, 또는 수사 처리와 같이 일부 제한된 품사 영역에서만 어절을 넘어선 처리가 행해지고 있다. 한편 교열과 같은 어절 단위를 넘어선 오류 처리는 완벽한 통사 분석과 의미 해석을 반드시 필요로 한다고 생각되어져 왔다. 그리고 현재 한국어 처리에서는 완벽한 통사적, 의미적 처리가 불가능하기 때문에 교열 시스템 또는 어절 단위를 넘어선 오류 처리에 대한 연구가 거의 전무한 실정이다.
본 논문은 어절을 넘어선 오류의 유형을 분류하고, 문장 단위로 관련된 단어 사용 오류를 검사하는 기법과 관련 단어 처리를 위한 규칙 데이타 베이스의 구조를 제안한다. 단어 사이에 존재하는 통사적, 의미적 지배 관계와 연관 관계를 어휘선택 제약으로 이용함으로써 완벽한 통사 분석과 의미 분석이 없이도 교열이 가능하게 하였다.

"의미적 한 단어" 유형 분석 및 형태소 분석 기법1)
Korean Morphological Analysis Considering a Term with Multiple Parts of Speech
Yun-Young Hur, Hyuk-Chul Kwon
Department of Computer Science, Pusan National University
요약
한국어 문서중 신문이나 시사지, 법률관련문서, 경제학관련문서, 국문학관련문서와 같은 전문분야 문서에는 한글, 한자, 영어, 문장부호와 같은 기호들의 결합으로 이루어지면서 하나의 뜻으로 나타내는 "의미적 한 단어"가 많이 존재한다. 이러한 단어들은 이를 고려하지 못한 형태소 분석기의 분석률을 감소시키고, 오분석율을 증가시킨다. 본 논문은 "의미적 한 단어"의 유형과 분석과정에 따른 유형을 분류하였으며 그에 적합한 형태소 분석기법을 제시하였다. 유형 분류과 제시된 형태소 분석기법으로 구현된 형태소 분석기는 기존의 형태소 분석기보다 분석률이 증가되었으며 오분석률은 감소되었다.

지능적이고 정보중심적인 정보 검색 환경
- 가이더 .본 연구는 '93년도 문교부 지원 한국 학술 진흥 재단의 자유 공모 과제 학술 연구 조성비에 의해 연구되었음.
information-centric information retrieval environment-Guider
심철민, 박수현, 김민정, 이종택, 권혁철
부산대학교 전자계산학과, 국립수산진흥원
Chul-Min Sim, Su-Hyun Park, Min-Jung Kim, Jong-Taik Lee, Hyuk-Chul Kwon
Dept. of Computer Science, Pusan National Univ., National Fisheries Research and Development Agency
요약
기존의 하이퍼텍스트 시스템은 다음과 같은 문제점을 가진다. 첫째, 시스템을 개발하는 저자가 사용자의 개념 모델과 일치되게 정보들 간의 모든 연결 링크를 제공하는 것은 불가능하다. 둘째, 저자가 정보 간의 연결 링크를 제공했다고 할 지라도 사용자가 그 시스템의 정보들을 제대로 활용하지 못하여 정보 습득에 실패하는 상황이 발생한다. 본 논문에서는 이러한 문제점을 해결하기 위해서 일종의 대리자(agent)로서의 "지능적인 가이더(intelligent guider)" 개념을 제안하였다. 가이더는 사용자 정보와 동의어, 반의어, 약어, 속어/사투리 사전을 지식베이스로 보유한다. 그리고 사용자의 질의를 분석하여 사용자와 시스템 사이에서 시스템에 존재하는 정보를 보다 쉽고 폭넓게 검색할 수 있도록 유도해 주는 역할을 한다.

사용자 인터페이스 구현에서 발생하는 일반적인 오류 유형.
본 연구는 '93년도 한국 과학 재단 목적 기초 협력 연구 과제 연구비에 의해 연구되었음.
권혁철
부산대학교 전자계산학과
Hyuk-Chul Kwon
Dept.of Computer Science, Pusan National Univ.
요약
본 논문에서는 스탠포드 대학의 인간-기계 상호작용 강의를 모델로 하여, 부산대학교 전산과에서 70명의 학생을 대상으로 각자 팀을 나누어 사용자 인터페이스의서 응용프로그램을 구현하게 한 결과로부터 얻은 경험을 서술하고 있다. 총 25개 팀의 학생들이 구현한 응응프로그램이 가진 오류에 대한 분석을 바탕으로 사용자 인터페이스의 설계에서 고려해야 하는 일반적 요구 사항을 분석했다. 그리고 이 요구 사항에 위배되는 프로그램을 예와 함께 설명하고 있다.

한글 문자 인식을 위한 후처리기의 개발과 속도 개선
황 호정*, 도 정인**, 권 혁철*
*부산 대학교 전자 계산 학과, **삼성전자 기술총괄 정보기술 연구소
Development of post-processing system for Hangul character recognition and improvement of speed
Ho-Jeong Hwang*, Jung-In Doh**, Hyuk-Chul Kwon*
*Dept. of Computer Science, Pusan National University
**Computer & Information R & D Center Corporate Technical Operations, Samsung Electronics
요약
본 논문에서는 속도 개선에 중점을 둔 문자 인식 후처리기를 제안한다. 제안한 후처리기는 후보 음절 벡터를 이용하여 하나의 어절을 선택하거나 교정하며, 속도 개선을 위해 음절 di-gram과 어절의 viable-prefix를 이용하였다. 어절의 viable-prefix는 한글 어절의 유효한 앞부분(prefix)으로 정의했다. 또한 올바른 후보 어절이 없는 경우를 고려하여 음절 혼동 행렬(confusion matrix)을 이용하여 음절 단위로 교정하였다.
본 논문에서 개발한 후처리기는 인식기의 어절 인식률을 83.6%에서 96%로 증대시켰고, 후처리기의 오류 교정률은 82.6%이었다. 그리고 본 속도 개선 방안으로 각 음절의 위치에 따른 후보 음절이 4개인 경우, 14.2배 정도의 속도개선이 있었다.

한국적 환경을 반영한 사용자 인터페이스 구현의 가능성
권혁철
부산대학교 전자계산학과 인공지능연구실
Designing User Interface in Korean Environment
Hyuk-Chul Kwon
Department of Computer Science, Pusan National University
요약
사용자 인터페이스의 설계는 특성상 문화적 요소의 반영이 매우 중요하다. 그러나 지금까지 한국적 환경을 반영한 사용자 인터페이스의 구현에 대한 체계적 접의 없었다. 본 논문은 한국적 환경을 반영한 사용자 인터페이스 구현의 가능성을 제시하고 있다. 사용자 인터페이스의 측면에서 한국이란 환경은 한글이라는 눈에 보이는 특징적 요소 외에도 문화적으로나 의식적인 측면에서 다른 나라와 구별되는 차이가 있을 것이다. 본 논문에서 제시된 모형에 의하면 이 차이는 사용자 인터페이스가 가지는 의미적 요소와 기능적 요소가 한국인의 사고와 문화 등과 일치하면서 한글의 자유로운 사용 등 한국의 특수한 상황이 반영된 사용자 인터페이스를 구현함으로써 구체화될 수 있다.

문자 인식을 위한 후처리기의 성능 개선
허윤영, 권혁철
부산대학교 전자계산학과
Additional Constraints on the Postprocessing for Korean OCR
Yun-Young Hur, Hyuk-Chul Kwon
Department of Computer Science, Pusan National University
요약
본 논문에서 제시한 후처리기는 속도 개선을 위해 인식 어절일 확률이 높은 어절을 우선적으로 생성하고, 거리 제약 함수, viable-prefix를 이용하여 가상 트리에서 가지치기를 함으로써 후보 어절을 제약한다.  인식률 개선을 위해 형태소 분석 결과 빈도에 의한 순위 결정 기법 , 문자 인식기에서 인식 결과인 후보 음절 벡터에서의 인식 신뢰도, 자주 사용하는 단어 사전을 이용하여 최종 후보 어절을 선택한다. 또한 기각 함수에 의해 선택되어진 최종 후보 어절을 기각함으로써 최종 후보 어절을 보다 정확하게 선택한다. 후보 음절 벡터에서 최종 후보 어절을 선택하지 못한 경우에는 교정을 한다. 교정을 위해서 문서 인식기에서 인식하는데 혼동이 되는 음절 혼동 행렬과 어절 간의 연관 관계를 이용한다.
본 논문에서 제시한 후처리기는 기존의 후처리기보다 한 어절 당 처리 속도를 28.08% 개선하였고, 어절 단위 인식률을 94.43%에서 95.97%로 개선하였다.

Improvement of a Korean Speller with Collocation of Parts of Speech
Chul-Min Sim, Hyun-Jin Kim, Young-Jin Kim, Hyuk-Chul Kwon
Departmemt of Computer Science, Pusan National University
요약
본 논문에서는 한 어절 단위에서 다수 어절 단위로 그 고려 영역을 확장한 개선된 철자 검사기를 제시한다. 개선된 철자 검사기는 1) 한 어절 철자 검사 교정부, 2) 연어 규칙 처리부, 3) 문장 부호 규칙 처리부로 구성된다. 한 어절 철자 검사 교정부는 기존의 철자 검사기와 같은 기능을 수행한다. 연어 규칙 처리부는 형태소 간의 연어 관계를 이용하여 7가지로 유형 분류된 어절 간 오류를 처리한다. 문장 부호 처리부는 문장 부호 자체의 오류와 문장 부호을 참조하여 좌우 어절들의 오류를 검사한다. 현재 256가지의 연어 규칙과 51가지의 문장 부호 규칙이 구축되어 있다.
본 논문에서 제시한 개선된 철자 검사기는 한국어 문체 검사기(Korean Style Checker) 로서 의의를 가지며, 형태소의 연어 정보는 향후 파싱 등의 문장 분석이나 의미 분석에 중요한 자료로 이용될 수 있을 것으로 기대된다.

한국어 Text-to-Speech 변환을 위한 음운 변동 시스템에 관한 연구
박수현, 권혁철
부산대학교 전자계산학과
Implementation to phonological alteration module for a korean text-to-speech
Su-Hyun Park, Hyuk-Chul Kwon
Dept. of Computer Science, Pusan National University
요약
Text-to-speech 시스템은 텍스트를 입력으로 받아 텍스트와 일치하는 음성을 출력하는 시스템으로, 인간이 자신의 모국어로 텍스트를 읽는 것과 비슷한 수준의 음성을 출력하는데 목적이 있다. 한국어의 각 단어들은 한 단어 내에 있는 형태소들 사이에 음운 변동 현상을 일으켜 쓰여진 형태와 다르게 발음된다. 그러므로 한국어 텍스트를 자연스럽게 발음하기 위해서는 음운 변동 현상을 효율적으로 처리할 수 있어야 한다. 한국어에서 음운 변동을 일으키는 규칙은 여러 가지이고, 정확한 발음을 위해서는 이러한 규칙들이 차례대로 적용되어져야 한다. 따라서 본 논문에서는 이러한 한국어의 발음상의 특성을 고려하여 two-level 모델에 기반한 음운 변동 시스템을 구현한다.

문서 검색 시스템을 위한 도치 색인 파일의 압축 저장 기법 개선*
이준영, 김민정, 권혁철
부산대학교 전자계산학과
An Improved Bit Vector Compression Method for a Document Retrieval System
Jun-Young Lee, Min-Jung Kim, Hyuk-Chul Kwon
Dept. Of Computer Science, Pusan National University
요약
문서 검색 시스템의 도치 색인 파일은 저장 공간과 검색 시간을 줄이기 위해 색인어 사전과 문서번호를 위한 이진 도치 파일 또는 비트벡터로 구성할 수 있다. 비트벡터는 1의 값을 가지는 비트만 저장함으로써 압축이 가능하나, Bit tree 압축 방법은 block의 크기가 어떻게 결정되느냐에 따라 압축률이 달라진다. 본 논문에서는 비트벡터에 나타나는 1의 값을 가지는 비트의 개수에 의해 bit tree 압축에 대한 최적의 block 크기를 결정하는 방법을 했다. 최적의 block의 크기는 전체 비트벡터의 크기 / 1의 개수보다 작거나 같은 최대의 2의 승수이다. 또한 block내의 1의 값을 가지는 비트의 위치에 의해 상대 위치값을 계산해서 block의 오른쪽 반에 나타나는 비트를 더 압축할 수 있는 기법을 구현한다. 본 논문에서 구현한 압축 기법은 Run Length를 이용한 방법에 비해서 13.65%, 기존의 Bit Tree 방법에 비해서 1.88%의 압축률을 개선했다.

Relevance Feedback을 이용한 정보검색시스템의 검색 효율 향상
박세진*, 강상배**, 권혁철**
*부산대학교 인지과학협동과정
**부산대학교 전자계산학과

Improving the Efficiency of Information Retrieval System Using Relevance Feedback
Se-Jin Park*, Sang-Bae Kang**, Hyuk-Chul Kwon**
*Interdisciplinary Research Program of Cognitive Science, Pusan National University
**Dept. of Computer Science, Pusan National University
요약
단어의 하위 범주화 정보를 이용한 한국어 문법 검사기
*김영진, 최성필, 손훈석, 박용욱, 권혁철, **박동인
*부산대학교 전자계산학과
**시스템공학연구소
Korean Grammar Checker Using Sub-informations of Words
*Y.J.Kim, S.P.Choi, H.S.Son, Y.U.Park, H.C.Kwon **D.I.Park
*Department of Computer Science, Pusan National University
**Systems Engineering Research Institute
요약
  현재, 한국어 철자 검사 교정기는 한 어절의 철자 오류나 띄어쓰기 오류를 검사 교정한다. 이 논문에서 제시하는 한국어 문법 검사기는 기본적인 오류 외에 의미 오류와 문체 오류 등에 관한 검사 교정을 수행한다. 그를 위해 자주 발생하는 오류를 조사하고 그에 대한 처리 규칙을 정립하여 지식베이스화하였다. 특히, 단어를 의미별 하위 범주로 나누고 그 정보를 기반으로 한, 단어 간 연관 관계를 규칙화하였다. 또한 동사의 하위 범주화를 통해 문장 구조의 정확성에 대한 검사 교정도 일부 수행한다. 또한 혼동하기 쉬운 단어와 연관 관계에 있는 단어를 검사하기 위하여 의존 문법에 기반한 부분 구문 분석을 시도하여 검사 범위를 확장하였다..

문서 내용 갱신 시에도 자료 검색이 가능한 데이터베이스 복구기법
박승, 강상배, 박현주, 권혁철
부산대학교 전자계산학과
A Recovery Method to be able to Access Database While Updating
Seung Park, Sang-Bae Kang, Hyun-Joo Park, Hyuk-Chul Kwon
Dept. of Computer Science, Pusan National University
요약
본 논문은 대용량의 문서를 다루는 정보검색시스템에서 문서 등록시 정전이나 시스템의 오류로 인한 시스템 파손이 발생하였을 때 이를 효과적으로 회복하는 기법을 제시한다. 정보검색시스템은 빠른 데이타 처리와 최소한의 디스크 입출력을 요구한다.  따라서 정보검색시스템의 특성에 맞게 빠른 회복 관리를 수행해야하고 회복 관리로 인해 시스템의 성능을 저하시키지 않아야 한다. 본 논문은 데이타베이스를 데이타블럭의 집합으로 간주하며 데이타블럭에 기반한 고장 회복기법을 구현한다. 새로 추가되거나 갱신되는 데이타블럭은 Cache에 백업이 되고 그에 대한 내용은 로그 버퍼에 기록된다. 구현한 회복기법은 데이타블럭의 효율적인 백업과 로깅 동작시 최소의 디스크 입출력을 보장한다. 또한 이 방법을 사용하면 자료가 갱신되는 중에도 자료의 접근이 가능하다.

부분 파싱을 이용한 한국어 명사구, 술어구와 접사의 색인 기법
박민경*, 김민정**, 권혁철***, 이선미°, 박현민°, 윤인중°, 김창갑°
부산대학교  인지과학협동과정*
밀양산업대학교 컴퓨터공학과**
부산대학교 전자계산학과***
  시스템 공학 연구소 개방형 소프트웨어 연구실°
Korean  Indexing of Noun Phrases, Predicates and Affixes by Partial Parsing
Min-Kyung Park*, Min-Jung Kim**, Hyuk-Chul Kwon***, Sun-Mi Lee°, Hyun-Min Park°, In-Joung Yoon°, Chang-Kab Kim°
Interdisciplinary Natural Processing Program of Cognitive Science, Pusan National University*
Dept. of Computer Engineering, Miryang National University**
Dept. of Computer Science, Pusan National University***
Open Software Lab., Systems Engineering Research Institue
요약
기존의 한국어 정보 검색 시스템은 대부분 형태소 분석 기술을 바탕으로 문서에 있는 단일 명사나 일부 복합 명사를 추출하여 검색에 이용한다. 그러나 문서에 있는 술어나, 수식어 등을 무시하고 명사만을 색인어로 이용하면 검색 효율에 한계가 있다. 본 논문은 기존의 명사 색인 기법을 보완하기 위하여 부분 파싱기술을 이용한 어구 색인 기법과 접사를 이용한 명사 색인 방법을 제안한다. 어구 색인 방법은 술어구나 수식어를 포함하는 명사구에서 색인어를 추출하며, 접사를 이용한 명사 색인 방법은 색인어로 어근과 파생어를 추출할 뿐만 아니라 접사와 관련된 명사도 색인어로 생성한다. 본 논문에서 제시한 한국어 색인 기법은 문서로부터 최대한 많은 정보를 추출하여 색인어로 이용함으로써 문서 검색 시스템의 효율을 높인다.
검색 비전문가가 질의문을 정확하게 작성하여 원하는 문서를 검색하기는 매우 어렵다. 이 논문은 이 문제를 해결하기 위하여 Relevance Feedback 방법을 사용한다. Relevance Feedback 은 검색한 문서 중에서 적합하다고 판단한 문서에 있는 색인어를 질의어에 추가하여 다시 검색하는 방법이다.
실험방법은 5가지의 질의문 수정 방법에 따른 검색 효율을 비교한다. 실험에 사용하는 정보검색시스템은 부산대학교 인공지능연구실에서 개발하였으며, 실험데이터는 부산일보 신문기사 5만 3천 건과 KT-Set 2.0이다.


Pusan National University Artificial Intelligence Laboratory.
webmaster@bandi.cs.pusan.ac.kr