共指消解(coreference resolution)介绍

来源:互联网 发布:新版笑傲江湖 知乎 编辑:程序博客网 时间:2024/04/30 06:48

什么是共指消解(coreference resolution)?

(篇章内)共指消解就是将文章中所有表述划分为现实世界中不同实体的等价描述。举个例子:比如一个常见的新闻稿子:…应中华人民共和国总书记,国家主席,国家军委主席胡锦涛的邀请,美国总统奥巴马再次访问中国。…奥巴马一行乘坐空中一号于某时抵达北京国际机场,胡主席率领某某等前往首都机场迎接他的专机….。在这个句子中。有至少三个等价描述簇:1)中国人民共和国,中国,国家;2)中国人民共和国总书记,国家主席,国家军委主席,胡锦涛,胡主席;3)美国总统,奥巴马,他。

常见共指消解根据照应语(anaphor)的词性可分为:代词消解(如上例中的他指奥巴马)和名词消解(如国家主席和国家军委主席,胡主席)。

为什么要研究共指消解?

共指消解是自然语言处理中的核心问题,在机器翻译,信息抽取以及问答等领域有重要作用。就拿常见的信息抽取的一个成型系统来讲吧,微软的学术搜索引擎会有一些作者的档案资料,这些信息可能有部分就是根据共指对象抽取出来的。比如一个教授的访谈录:教授的名字可能只出现一两次,更多的可能是“我”,“某某博士”,“某某教授”,“他”之类的代称,不出意外的话,这里面也会有些同样的词代表记者,如何将这些词对应到正确的人上可能会是信息抽取的关键(此部分属于假想,但实际项目中应该会用到此类技术)。

共指消解的基本概念:

照应语(anaphor):指向一个真正实体的词;

先行语(antecedent):真正实体;

比如第一个例子中,”他”是照应语,“奥巴马”是照应语。

回指:照应语在先行语后边;

预指:照应语在先行语前边。

共指消解的研究现状:

据stanford的Christopher D. Manning所说,至少英文中的共指消解技术已经达到了一个相对理想的效果。至于中文呢,...

更多参见http://www.guzili.com/?p=59#more-59。

原创粉丝点击