《Speech and Language Processing》读书笔记之信息抽取IE

来源：互联网发布：jsp网上报名系统源码编辑：程序博客网时间：2024/06/08 19:20

Information Extraction 信息抽取

一、概述

1.1 IE

信息抽取就是从文本中抽取有限的几种语义内容，是将非结构化的文本转换为结构化数据的过程，有限的几种语义内容主要包括：实体抽取、关系抽取、事件抽取、时序表达、模板填充等。

1.2命名实体识别（named entity recognition， NER）

IE任务大都以NER开始，也就是识别文本中的命名实体并进行类别的标注，以达到实体间链接、实体聚类、向real-world映射的目的。

1.3关系抽取

在文本中抽取实体间的各种关系，并对这些关系进行分类。

1.4事件抽取

在文本中发现由实体参与的事件，理清各事件之间的指代关系（可能几个事件指代的是同一个事件，只是不同的表达）

1.5时序表达

时间的抽取以及归一化，主要用于对事件的描述。

1.6模板填充（Template Filling）

文本中描述的很多事件都是经常性的、典型的，针对这些事件建立模板，再用从文本中抽取相应的材料对模板进行填充，如下图

二、命名实体抽取

定义、目的前面已给

NER的任务和困难是实体边界的识别和类型指定（有时一个实体同时拥有多个类别，比如下图）

2.1 序列标注

2.1.1标注

The standard algorithm for named entity recognition is as a word-by-word sequence labeling task, in which the assigned tags capture both the boundary and the type.典型的MEMM or CRF模型。输入为标注序列，经过训练后，输出也为标注序列。

[ ORG American Airlines], a unit of [ORG AMR Corp.], immediately matched the move, spokesman [PER Tim Wagner] said.

计算过程中一般使用BIO或者IO标注方法，如下

2.1.2特征选取

常用特征

特别地：

词形word shape： DC10-30 would map to XXdd-dd

适合：English newswire texts

不适合：text by automatic speech recognition，Chinese

词表gazetteer：

作为训练的输入

2.2NER的评价

The familiar metrics of recall, precision, and F1 measure are used to evaluate NER systems.

2.3实践

commercial approaches to NER are often based on pragmatic combinations of lists, rules, and supervised machine learning。

比如：利用迭代思想，首先使用基于规则的方法精确识别命名实体（召回率会很低），在文本中匹配已识别命名实体的子字符串，根据具体应用name lists识别出可能的新命名实体，以以上所有命名实体作为输入，再利用统计的方法进行下一轮识别。

0 0