Uniform Information Density
07 Dec 2020이번 주부터 시작한 논문 스터디에서 발표하신 분 발표 내용에서 Uniform Information Density, UID에 대한 내용이 있었다. 인지심리학 분야의 개념이라고 하는데, 발표를 듣다보니 흥미로워서 좀 더 찾아보기로 했다.
일단 시작하기 전에 검색을 해봐도 생각보다 쉽게 설명되어 있는 블로그가 없다.
그래서 Matthew W.Crocker 교수님의 여름학기 강의자료로 추정되는 Uniform Information Density라는 슬라이드를 보고 간단히만 정리해보기로 했다. (그마저도 읽다보니까 강의자료만 보고는 이해가 어려울 것 같아서 나중에 근간이 되는 논문들을 읽어봐야 할 것 같다. 그냥 읽어볼라 했는데 시험기간인데 논문이 너무 길어서 나중에 읽어봐야지 싶다.)
검색을 해본 결과 Uniform Information Density는 2010년에 나온 Jaeger의 Redundancy and reduction: Speakers manage syntactic information density라는 논문과 Frank와 Jaeger가 쓴 Speaking rationally: Uniform Information Density as an Optimal Strategy for Language Production이라는 논문에서 제안된 개념으로 추정된다.
먼저 surprisal이라는 개념이 있는데, surprisal은 어떤 문맥에서 주어진 linguistic unit이 담고 있는 정보를 말한다. 나올 확률이 높으면 surprisal이 낮고, 나올 확률이 낮으면 surprisal이 높다. 보통 surprisal이 낮은, 즉 나올 확률이 높은 단어들은 더 짧고, 더 적은 정보를 갖고 있다.
Uniform Information Density Hypothesis는 주어진 문법으로 제한된 상황에서 화자들이 정보가 균일하게 분포되어있는 발화를 선호한다는 가설이다. 그래서 화자들에게 하고 싶은 말을 표현하는 몇 가지 선택권을 줬을 때 더 정보가 균일하게 퍼진, 더 uniform information density를 갖는 선택지를 선호한다는 것이다.
인코딩 방식에 따라 information density를 조절할 수 있고, 발화 생성 방법은 high surprisal 표현들을 더 확장해서 표현하거나, 예측가능한 표현들을 줄이거나 정보를 시간에 걸쳐서 분산시킬 수 있는 형태를 쓰는 등 predictability의 영향을 받는다고 한다. 사실 이 부분은 잘 이해가 되지 않는다.
아무래도 2010년에 나온 Jaeger의 논문을 읽어보는 것이 제일 좋을 것 같다.
논문 정리 링크: 읽고 작성 후 추가할 예정