关于共指消解中特征的选取和计算

来源:互联网 发布:nba新浪体育数据库 编辑:程序博客网 时间:2024/04/30 07:02

1.      单复数计算模块

先行语:由于先行语是由命名实体识别模块识别出来的,包括人名、地名和组织机构名,因而都是单数;在命名实体识别任务完成后,对人名、地名和组织机构名相同类别的先行语进判别,看先行语之间是否由“和”,“与”,“、”隔开,有的话即把这些同类实体及连接符号一起记录数据库中,即添加一新实体。

例:{{张三}1-h{李四}2-h}3-and都是好学生,{前者}1-o还是省优秀大学生,{他们}3-o都棒。

指代语:由于指代语的构成较为复杂,这里只考虑下面几种情况。

    查询词典,一班人、群众、大众、公众等

    查看指语前面的数词,按词顺序不断往前搜索,直到找到数词或碰到动词结束搜索。数词形如,全部全体 一切 所有 全副 全份 成套 整套 一体 尽数少 少数 个别等。找到数词,查找数词对应词典判别单复数。

    查找名词短语(指代语)是否存在“和”、“并”、“与”和“、”等关键字。

2.关于性别计算模块

由于只有人名在存在性别属性,因而对于人名先行语,分别抽出其名中的用字,搜索语料库,得到字对应的男,女发生比例,找出差距较大的字对应比较,计算输出权值。

对于指代语而言,搜索关键字,如先生, 小姐, 男士, 女士,他,她等。

3.实体和提及的距离,是否在同一句中

搜索实体和名词短语(提及)之间是否存在“。”、“?”、“!”、“:”、“……”等。

4.先行语的类别

即命名识体识别模块的结果,H(人名)、S(地名)、ORG(组织机构名)等。

5.指代语的指示特征

指人代词:你我他/们等

指示代词:(这|那)<>+

6.实体和名词短语是否相临

位置相连或由“、”隔开。

7.简单语义类特征(指代语)

利用同义词词林,把名词短语拟看成偏正结构,从左往右不断消解。例如,“南/j理工/j”会先搜“南理工”的语义类,搜不到后再搜“理工”的语义类,再搜不到即输出U

8.简称特征

利用定义的规则对实体与名词短语进行规则判别,输出判别结果,T/F

 

9.主谓语特征

利用依存分析找出实体和提及充当的句子成份,主语还是谓语。待定.

原创粉丝点击