[NLP] 命名实体识别简要知识点

来源:互联网 发布:淘宝网品牌 编辑:程序博客网 时间:2024/06/07 01:35
命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguageProcessing, NLP)的一个基础任务

目标:
识别出文本之中人名、地名等专有名词和有意义的时间、日期等数量短语并加以归类
简单的说识别出未登录词识别的范畴
对分词效果的影响非常大

研究主体:
研究的主体即命名实体。 一般包括 实体类、时间类、数字类
再细分成7个小类: 人名、地名、机构名、时间、日期、货币、百分比
其中,人名、地名、机构名最为复杂

根据具体的场景,还可能需要把产品名称、旅游景点名称等作为命名实体

主要技术方法:
1. 基于规则和词典的方法
2. 基于统计机器学习的方法
HMM、ME、SVM、CRF
3. 混合方法
借助于规则只是提前进行过滤修建,否则光基于统计的方法使得状态搜索空间非常庞大
0 0