词性标注
来源:互联网 发布:淘宝女装销量 编辑:程序博客网 时间:2024/05/01 02:26
所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。比如,给定一个句子:“我中了一张彩票”。对其的标注结果可以是:“我/代词中/动词/了/助词/一/数词/张/量词/彩票/名词。/标点”
词性标注的难点主要是由词性兼类所引起的。词性兼类是指自然语言中一个词语的词性多余一个的语言现象。词性兼类是自然语言中的普遍现象,例如下面的句子:S1=“他是山西大学的教授。”; S2=“他在山西大学教授计算语言学。”句子S1中,“教授”是一个表示职称的名词,而句子S2中“教授”是一个动词。对人来说,这样的词性歧义现象比较容易排除,但是对于没有先验知识的机器来说是比较困难的。词性兼类在汉语中很突出,据不完全统计,常见的词性兼类现象有几十种,这些兼类现象具有以下分布特征:l)在汉语词汇中,兼类词的数量不多,约占总词条的5一11%。2)兼类词的实际使用频率很高,约占总词次的40一45%。也就是说,也是常用的词,其词性兼类现象越严重。3)兼类词现象分布不均:在孙茂松等的统计中,仅动名兼类就占全部兼类现象的49.8%;在张民门的统计中,动名兼类和形副兼类就占全部113种兼类现象的62.5%。词性兼类的消歧常采用概率的方法,如隐马尔科夫模型。这些方法的有效性依赖于兼类词性的概率分布。但是有些兼类的词性的概率分布近似,特别是高频的词性兼类现象,如汉语的动词名词兼类,对于这些兼类现象,传统的概率方法很难奏效,如何解决这个问题目前词性标注面临的主要困难之一。
1 0
- 词性标注
- 词性标注
- 词性标注
- 词性标注
- 词性标注
- 词性标注(1)
- 一阶HMM词性标注
- 词性标注类函数
- 斯坦福词性标注Demo
- 词性标注说明
- 计算所词性标注集
- 词性标注POS tagging
- 北大词性标注集
- 中文词性标注
- Stanford Tagger 词性标注
- 结巴分词--词性标注
- ANSJ词性标注集
- LTP词性标注
- Oracle 网络问题错误日志典型格式
- 继承和动态内存分配(C++ Primer Plus 第十三章)
- leetcode-Letter Combinations of a Phone Number
- 黄海波被曝嫖娼被拘 移送拘留所供认不讳
- java基础(1)文档注释
- 词性标注
- static 作用总结(c/c++)
- android layout_weight
- STM8S TIM4库函数应用
- Eclipse去除js(JavaScript)验证错误
- 采用TabHost和RadioButton实现页面导航效果
- R common function
- 关于Ubuntu下的PDF阅读器
- BP 算法 (Back-propagation Algorithm) 之较直观的解释