CRF专业领域实体识别
来源:互联网 发布:女生学java还是web前端 编辑:程序博客网 时间:2024/05/24 07:38
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
近年来,随着对文本病历的研究,需要对医学实体进行识别,实体包括症状,检查,手术,药物等。这里介绍用CRF进行病人自述症状的识别。
下载工具CRF++
1 准备大量病历,抽取病人自述症状部分,经过分词和标注等预处理。
2 因为语料库中医学术语是低频词,识别症状实体需要人工标注词首B ,词中I,词尾E,无关词o
头晕 vi b
, wd o
早上 t o
起来 v o
腰部 n b
僵硬 an e
, wd o
视物 v b
模糊 an e
, wd o
双 m o
小腿 n b
下沉 vi e
实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
近年来,随着对文本病历的研究,需要对医学实体进行识别,实体包括症状,检查,手术,药物等。这里介绍用CRF进行病人自述症状的识别。
下载工具CRF++
1 准备大量病历,抽取病人自述症状部分,经过分词和标注等预处理。
2 因为语料库中医学术语是低频词,识别症状实体需要人工标注词首B ,词中I,词尾E,无关词o
头晕 vi b
, wd o
早上 t o
起来 v o
腰部 n b
僵硬 an e
, wd o
视物 v b
模糊 an e
, wd o
双 m o
小腿 n b
下沉 vi e
3 训练模型 crf_learn template train.data model
4 测试 crf_test -m model test.data>out.txt
父亲 n o
手脚 n b
麻木 an i
, wd o
胸部 n b
发 v i
紧 a i
, wd o
走路 vi o
没劲 a i
, wd o
手脚 n b
麻木 an i
可以找到手脚麻木,胸部发紧,没劲,手脚麻木的症状。有基于单字标注,说基于词的标注,如果因为分词的不准确会导致识别错误。
0 0
- CRF专业领域实体识别
- CRF++命名实体识别
- CRF++实体识别
- crf++中文命名实体识别
- CRF命名实体识别的一些tips
- 使用CRF++进行命名实体识别
- CRF++进行自定义命名实体识别
- lstm+crf实现命名实体识别
- 条件随机场(CRF)识别命名实体
- 基于条件随机场(CRF)的组织机构实体识别
- 基于条件随机场(CRF)的组织机构实体识别
- 记使用CRF++做中文命名实体识别
- 基于深度学习的命名实体识别bi-lstm+crf
- 网页正文提取+HMM命名实体识别+CRF命名实体识别
- linux下使用CRF++结合java做的命名实体识别demo
- 基于crf的命名实体识别的一部分总结加文本分类大致流程
- 领域实体
- 领域专业词汇
- Hadoop程序基础模板
- Lua笔记15 __index
- Android之RecyclerView的动画详解
- This application is modifying the autolayout engine from a background thread 原因
- 让服务器iis支持.apk文件下载的设置方法
- CRF专业领域实体识别
- spark streaming接kafka数据方式汇总
- Error:Execution failed for task ':app:dexDebug'. > com.android.ide.common.process.ProcessException
- 第四周项目1:求最大公约数
- Unity 截屏,WWW加载图片,保存到本地
- C# Winform中窗体的美化——用IrisSkin4.dll美化你的WinForm
- 基于tiny4412的Linux内核移植(支持device tree)(二)
- Hadoop模板(新API)
- 菜鸟成长记-UIPickerView使用