CRF专业领域实体识别

来源:互联网 发布:女生学java还是web前端 编辑:程序博客网 时间:2024/05/24 07:38
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
近年来,随着对文本病历的研究,需要对医学实体进行识别,实体包括症状,检查,手术,药物等。这里介绍用CRF进行病人自述症状的识别。
下载工具CRF++
1 准备大量病历,抽取病人自述症状部分,经过分词和标注等预处理。
2 因为语料库中医学术语是低频词,识别症状实体需要人工标注词首B ,词中I,词尾E,无关词o
头晕    vi   b
,      wd   o
早上   t      o
起来   v      o
腰部   n    b
僵硬  an   e
,     wd   o
视物   v     b
模糊  an   e
,        wd   o
双     m     o
小腿   n     b
下沉   vi     e

3 训练模型 crf_learn template train.data model

4 测试 crf_test -m model test.data>out.txt

父亲    n    o
手脚    n    b
麻木    an    i
,    wd    o
胸部    n    b
发    v    i
紧    a    i
,    wd    o
走路    vi    o
没劲    a    i
,    wd    o
手脚    n    b
麻木    an    i

可以找到手脚麻木,胸部发紧,没劲,手脚麻木的症状。有基于单字标注,说基于词的标注,如果因为分词的不准确会导致识别错误。


0 0