《Speech and Language Processing》读书笔记之信息抽取IE
来源:互联网 发布:jsp网上报名系统源码 编辑:程序博客网 时间:2024/06/08 19:20
Information Extraction 信息抽取
一、概述
1.1 IE
信息抽取就是从文本中抽取有限的几种语义内容,是将非结构化的文本转换为结构化数据的过程,有限的几种语义内容主要包括:实体抽取、关系抽取、事件抽取、时序表达、模板填充等。
1.2命名实体识别(named entity recognition, NER)
IE任务大都以NER开始,也就是识别文本中的命名实体并进行类别的标注,以达到实体间链接、实体聚类、向real-world映射的目的。
1.3关系抽取
在文本中抽取实体间的各种关系,并对这些关系进行分类。
1.4事件抽取
在文本中发现由实体参与的事件,理清各事件之间的指代关系(可能几个事件指代的是同一个事件,只是不同的表达)
1.5时序表达
时间的抽取以及归一化,主要用于对事件的描述。
1.6模板填充(Template Filling)
文本中描述的很多事件都是经常性的、典型的,针对这些事件建立模板,再用从文本中抽取相应的材料对模板进行填充,如下图
二、命名实体抽取
定义、目的前面已给
NER的任务和困难是实体边界的识别和类型指定(有时一个实体同时拥有多个类别,比如下图)
2.1 序列标注
2.1.1标注
The standard algorithm for named entity recognition is as a word-by-word sequence labeling task, in which the assigned tags capture both the boundary and the type.典型的MEMM or CRF模型。输入为标注序列,经过训练后,输出也为标注序列。
[ ORG American Airlines], a unit of [ORG AMR Corp.], immediately matched the move, spokesman [PER Tim Wagner] said.
计算过程中一般使用BIO或者IO标注方法,如下
2.1.2特征选取
常用特征
特别地:
词形word shape: DC10-30 would map to XXdd-dd
适合:English newswire texts
不适合:text by automatic speech recognition,Chinese
词表gazetteer:
作为训练的输入
2.2NER的评价
The familiar metrics of recall, precision, and F1 measure are used to evaluate NER systems.
2.3实践
commercial approaches to NER are often based on pragmatic combinations of lists, rules, and supervised machine learning。
比如:利用迭代思想,首先使用基于规则的方法精确识别命名实体(召回率会很低),在文本中匹配已识别命名实体的子字符串,根据具体应用name lists识别出可能的新命名实体,以以上所有命名实体作为输入,再利用统计的方法进行下一轮识别。
0 0
- 《Speech and Language Processing》读书笔记之信息抽取IE
- 《Speech and Language Processing》第三版手稿读书笔记——00(Daniel Jurafsky,James H. Martin)
- Chinese Language Processing and Chinese Computing
- Applied Natural Language Processing —— 读书笔记 第一章
- Applied Natural Language Processing —— 读书笔记 第二章
- 用Python进行自然语言处理-1. Language Processing and Python
- Synonyms-Chinese Synonyms for Natural Language Processing and Understanding
- 信息抽取(IE)领域相关论文阅读小结
- 论文笔记——Creating Speech and Language DataWith Amazon’s Mechanical Turk
- NLP:Natural Language Processing
- Natural Language Processing Knowledge
- Natural Language Processing
- Deep Learning 读书笔记(十四):Natural Language Processing (almost) from Scratch
- 读书笔记之-----"The C Programming Language"
- 信息抽取,自然语言处理之谈
- 【文本分类】 特征抽取之信息增益
- 文本挖掘系列之文本信息抽取
- NLTK学习之四:文本信息抽取
- 【数据库】PostgreSQL与MySQL比较
- 解决eclipse中出现Resource is out of sync with the file system问题
- 获得Android系统的唯一标识、android版本、网络接入方式、当前网络接入方式的MAC地址、IP、CPU的利用率、CPU的负载、内存大小
- 多级下拉列表(angular)
- 【UML】--泛化和继承
- 《Speech and Language Processing》读书笔记之信息抽取IE
- tcp数据包接收
- 强制转化 (int)、(int&)和(int*)的区别
- GTK+浅谈之十五GObject面向对象的继承
- linux ping: unknown host 的解决方法
- 语音信号处理
- tomcat 连接池配置
- uva 1151 Buy or Build (最小生成树)
- Eclipse MAT 内存分析工具