中文信息抽取技术初探索

来源:互联网 发布:贵阳大数据是什么 编辑:程序博客网 时间:2024/05/17 09:07

先推荐一篇博士论文:

【中文事件抽取关键技术研究-谭红叶】

以下大部分内容都是从这篇博士论文中整理出来的。

在MUC评测会议上,信息抽取定义包括:

  • 命名实体的识别(Named entities,NE)
  • 命名实体关系的抽取(Template relation,TR)
  • 指定事件及其主要论元角色的抽取 (Scenario template ,ST)
  • 模板元素的填充(Template element,TE)
  • 共指关系的确定(conference)

在ACE评测会议上,信息抽取定义定义的抽取是在单个文档内部进行(Document level IE),不受其他文档的影响,不属于跨文档的信息抽取(Across document IE)。包括:

  • 实体的检测和识别(Entity detection and recognition, EDR)
  • 关系的检测和识别(Relation detection and recognition, RDR)
  • 事件的检测与识别(Event detection and recognition, VDR)
  • 值 的 检 测 和 识 别 (Value detection and Recognition, VAL)
  • 时间的检测和识别(Time detection and recognition)

由此可见,信息抽取的核心应该是命名实体识别+关系抽取+事件抽取

事件的检测与识别主要指特定类型事件的检测和相关信息的识别。相关的信息主要包括:
- 属性信息
- 论元角色
- 文中描述事件的句子或片段

事件抽取涉及到的核心任务是:事件mention的识别、事件属性的确定和论元角色的识别。
即主要包括事件的检测与分类(又称事件识别)、事件论元角色抽取(又称事件元素识别)两个阶段。

ACE评测会议将事件分为8 个大类和 33 个子类,分别为:
- Justice :Acquit无罪、Appeal呼吁、Arrest-Jail拘捕入狱、Charge-Indict案件起诉、Convict宣判有罪、Execute处死、Extradite引渡、Fine罚款、Pardon赦免、Release-Parole假释、Sentence宣判、Sue控告、Trial-Hearing审判/听证。
- Conflict冲突:Attack攻击、Demonstrate示威
- Contact联系:Meet见面、Phone-Write电话写信
- Life生活:Be-Born出生、Die死亡、Divorce离婚、Injure受伤、Marry结婚。
- Movement:Transport运输。
- Business:Declare-Bankruptcy宣告破产、End-Org、Merge-Org企业并购、Start-Org创办企业。
- Personnel人事:Elect选举、End-Position最终职位、Nominate任命、Start-Position实习职位。
- Transaction交易:Transfer-Money转账、Transfer-Ownership过户。