《中文电子病历实体关系抽取研究》——笔记

来源:互联网 发布:礼品卡兑换系统源码 编辑:程序博客网 时间:2024/04/30 13:15

摘要

本文首先对电子病历去隐私,制定了隐私信息标注规范,使用条件随机场完成了隐私信息识别模型的构建。
使用992份经去隐私的已标注中文电子病历,首先实现了基于特征的关系抽取方法,通过抽取一些基本特征以及中文电子病历中一些特有的特征,训练支持向量机(SVM)单分类器并分析了实验结果。然后针对单分类器中关系大类的误分类情况,将单分类器分解为多个分类器用于处理指定关系大类下的样本。
基于树核函数的方法:将样本表示为句法分析书并由计算两棵树中相同子集树的数量的方式得到样本间相似度,利用这样的子集树核函数训练SVM多分类器。
本文在扩展基于特征的方法与基于树函数的方法的特征空间的基础上,对两个方法相应的核函数进行了结合,得到特征与树核函数结合的方法,并使用组合的后的方法完成了关系抽取,效果最佳。

第 1 章 绪论

1.1 课题背景及研究的目的和意义

1.1.1 课题背景

1.1.2 研究的目的和意义

1.2 国内外研究现状

1.2.1 国外研究现状

在开放域中进行关系抽取,难点在于语料内容往往没有固定的结构。
在关系类别方面,开放域中不同人物往往定义的关系类别也各不相同。主要分为基于特征的关系抽取方法和基于核函数的关系抽取方法。
在医疗领域,i2b2 2010评测任务中,Bruijn实现了基于SVM的关系抽取方法,他们训练了多个分类器并利用不同分类器处理不同的关系类别,以此降低类别间的错误来提高关系识别的效果。Rink同样使用SVM分类器,并通过引入外部字典和抽取丰富的特征提升了关系识别精度。Kim等发现句法树中包含了丰富的可用于关系识别的语义特征,他们使用了基于树核函数的方法进行关系抽取。

1.2.2 国内研究现状

目前中文上的关系抽取主要围绕开放域展开,在有监督的方法中SVM是被应用最多的分类器。中文的关系抽取在开放领域已经有了一定的成果,与国外相比,国内在电子病历方面的推进的步伐比较缓慢,主要是受到资源的限制。

1.3 本文研究的主要内容

(1)首先根据国内外在关系抽取上的研究,制定用于关系抽取的基本特征集,并根据中文电子病历的一些文本特点以及关系的标注规范对特征集合进行扩展,得到基于特征的关系抽取方法,并将模型拆分得到用于处理不同关系类别的多分类器,来减少类别间的误分类;(2)除了从基于特征的角度外,我们从中文电子病历的文本结构特点方面考虑,研究基于树核函数的方法识别中文电子病历中的关系。
最后进行整合。

1.4 本文的结构安排

第 2 章 中文电子病历实体关系抽取

2.1 引言

本章首先介绍中文电子病历去隐私的流程,然后简单描述了关系抽取任务,介绍了数据集。

2.2 电子病历去隐私(这个用做么?)

2.3 关系抽取语料介绍

500份出院小结,492份首次病程记录。
实体间的关系
共8个关系大类,分别是疾病与治疗见得关系,疾病与检查见得关系,疾病与自诉症状间的关系,疾病与异常检查结果间的关系,治疗与自诉症状间的关系,治疗与异常检查结果间的关系,检查与自诉症状间的关系,检查与异常检查结果间的关系。

2.4 任务描述

对所需要识别的关系类型作出如下描述。
这里写图片描述

2.5 关系抽取方法介绍

  1. 基于模式匹配的方法。
  2. DIPRE一种半监督的关系抽取方法。
  3. 有监督的关系抽取——基于特征/核函数的方法。

2.6 标注形式与评价方法

参考I2B2 2010的标注规范,引入了实体组的概念

第 3 章 基于特征的中文电子病历实体关系抽取

3.1 引言

此方法通过抽取实体对的词汇、语义和句法等方面的特征,将实体对在语句中的上下文表示成为特征向量,将关系类别作为分类标签,把实体关系抽取问题转化为分类问题,使用有监督的机器学习算法在特征向量集合上训练分类器,并使用此分类器对未标注的向量集合进行关系分类。
基于特征的方法关键在于根据数据的特点选取不同的特征集合。词汇,句法和语义三种类型的特征在关系抽取任务中比较常用。

0 0