yun's blog for NLP & NLU

A Review of Question Answering Systems

Question Answering에 대한 공부를 시작하기에 앞서 리뷰 논문(Article이 더 맞는 것 같다)을 읽어보기로 하였다. 해당 포스팅은 Journal of Web Engineering 2019년 1월호에 게재된 “A Review of Question Answering Systems”라는 article의 내용을 정리한 글이다.

Abstract

논문에서 다루는 내용은 크게 세 가지이다.

  • generic QA framework
  • important issues associated with QA systems
  • classify QA systems

Introduction

Question Answering(이하 QA)의 목적은 자연어로 표현된 query에 대한 답을 제공하는 것이다. Information Retrievel(IR) System과의 차이점은 IR의 경우 ranked list of documents를 반환하지만 QA는 expected answers를 반환한다는 것이다.

QA System에 대한 연구는 1960년대에 시작되었고, 다양한 방법을 사용하여 사용자의 질문에 답을 하기 위한 연구가 계속되어왔다. 최근에는 multiple sources에서 가져온 데이터를 활용하는 방법들에 대한 연구들이 이루어지기도 하였다.

많은 QA system들은 다음과 같은 기준들에 의해 분류가 되었다.

  • asked questions
  • features of data bases consulted
  • right answer forms
  • qa approaches and techniques

Background Information

자연어 질의를 처리하는 시스템은 1950년 처음 만들어졌는데, 이는 Imitation Game이라고도 불리는 튜링의 Turing Test이다.

QA 시스템의 경우 사용자들의 자연어 질의에 대한 결과를 데이터베이스에서 가져오는 Natural Language Interface to Databases(NLIDB), 미국 야구 리그의 장소 및 날짜 정보를 알려주는 BASEBALL, 토양 샘플에 대한 정보를 알려주는 LUNAR등이 제안되었는데, 이러한 모델들은 간단한 패턴 매칭 기반이었음에도 괜찮은 성능을 보였으나, domain information이 부족하다는 한계점이 존재하였다.

그 이후로 질문을 위해 필요한 것들을 자연스러운 방식으로 찾기 위한 연구가 이루어졌고, 질문을 언어적으로 분석하는 방법들을 찾기 시작했다. 그 중 한 예시는 MASQUE이다. MASQUE는 질의들을 논리식으로 표현하고, 이를 데이터베이스 쿼리문으로 바꿔 information retrieval을 수행한다. 이후의 QA 시스템은 오픈 도메인 QA 시스템을 중심으로 연구되었다.

Open domain QA 시스템이 연구되면서 이제 QA 시스템들은 데이터를 web에서 가져오는 형태로 발전을 하게 되었고, 이는 이후 open/close domain QA system으로 분류되게 된다.