关于共指消解中特征的选取和计算
来源:互联网 发布:nba新浪体育数据库 编辑:程序博客网 时间:2024/04/30 07:02
1. 单复数计算模块
先行语:由于先行语是由命名实体识别模块识别出来的,包括人名、地名和组织机构名,因而都是单数;在命名实体识别任务完成后,对人名、地名和组织机构名相同类别的先行语进判别,看先行语之间是否由“和”,“与”,“、”隔开,有的话即把这些同类实体及连接符号一起记录数据库中,即添加一新实体。
例:{{张三}1-h和{李四}2-h}3-and都是好学生,{前者}1-o还是省优秀大学生,{他们}3-o都棒。
指代语:由于指代语的构成较为复杂,这里只考虑下面几种情况。
① 查询词典,一班人、群众、大众、公众等
② 查看指语前面的数词,按词顺序不断往前搜索,直到找到数词或碰到动词结束搜索。数词形如,全部全体 一切 所有 全副 全份 成套 整套 一体 全 整 满 浑 周 遍 漫 尽数少 少数 个别等。找到数词,查找数词对应词典判别单复数。
③ 查找名词短语(指代语)是否存在“和”、“并”、“与”和“、”等关键字。
2.关于性别计算模块
由于只有人名在存在性别属性,因而对于人名先行语,分别抽出其名中的用字,搜索语料库,得到字对应的男,女发生比例,找出差距较大的字对应比较,计算输出权值。
对于指代语而言,搜索关键字,如先生, 小姐, 男士, 女士,他,她等。
3.实体和提及的距离,是否在同一句中
搜索实体和名词短语(提及)之间是否存在“。”、“?”、“!”、“:”、“……”等。
4.先行语的类别
即命名识体识别模块的结果,H(人名)、S(地名)、ORG(组织机构名)等。
5.指代语的指示特征
指人代词:你我他/们等
指示代词:(这|那)<些>+
6.实体和名词短语是否相临
位置相连或由“、”隔开。
7.简单语义类特征(指代语)
利用同义词词林,把名词短语拟看成偏正结构,从左往右不断消解。例如,“南/j理工/j”会先搜“南理工”的语义类,搜不到后再搜“理工”的语义类,再搜不到即输出U。
8.简称特征
利用定义的规则对实体与名词短语进行规则判别,输出判别结果,T/F。
9.主谓语特征
利用依存分析找出实体和提及充当的句子成份,主语还是谓语。待定.
- 关于共指消解中特征的选取和计算
- Coreference Resolution (共指消解)
- 文本情感分析中特征的选取与权重计算
- 共指消解(coreference resolution)介绍
- 数据特征的选取
- 基于VSM的命名实体识别、歧义消解和指代消解
- 推荐算法之特征选取和业务理解的重要性
- 特征选取的几篇好博客
- 关于jm86中MAX_LIST_SIZE值的选取
- extjs中关于itemselector的选取器
- ACM中关于最大值的选取
- numpy 中数据选取和切片选取的区别
- 关于特征和特征学习的重要性
- 特征选取
- 特征选取
- 特征选取
- 特征选取
- 计算n个数的最大共约数和最小公倍数
- 安装AutoCAD2007 遇到的问题
- ant教程
- 当心病毒!!安装autoCAD2007简体中文件版必看
- PB引用MD5的两种方法
- 求1000阶乘的结果中0的个数和结果的位数(利用数组)
- 关于共指消解中特征的选取和计算
- 使用DeepZoom打造超酷变形金刚SHOW
- ftp下载批处理(linux和windows)
- C#:List细节
- ip物理定位搜索类 与配合结合纯真数据库qqwry.dat完美结合,可以查询世界各地数据库,可以做网站按地区登录不同的地区网站
- Log4net
- CAD2007 病毒 处理办法
- 视频---好象可以提高速度
- 工作和生活