《统计自然语言处理基础》笔记(4)词性标注 之 作用和影响性能的主要因素
来源:互联网 发布:多张同样表格数据汇总 编辑:程序博客网 时间:2024/04/30 11:46
1.为什么要词性标注
词性标注是对句子中的每个词贴上合适的词性标签,所谓词性就是动词、名词、形容词等分类(又是分类…)。词性标注是很多NLP任务的预处理步骤,比如知道句子中每个词的词性后,再进行句法分析就容易多了。当然词性标注并不是一个必须的预处理。
词性标注之所以能成为独立的研究主题还在于 NLP的终极目标–理解语言-目前看来还是遥不可及的,革命既然不能一蹴而就,那就先瞄准简单可实现的目标,基于此完成一些不需要理解语义也能完成的任务:如信息提取。
2.影响词性标注准确率的因素
a 训练数据量。这个基本是废话,因为所有基于机器学习的任务都希望数据越
多越好。有道是”It’s not whohas the best algorithm that wins.It’s who has
the data.”;
b 词性标记集。有些词可以具备多种词性,即词性歧义,词性标记集越大,则
潜在歧义越多,标注任务也越困难(极端:如果只有一种词性,就永远不会
有歧义了,当然这是没有任何实用价值的);
c 训练集和真实数据集的差异。 简单理解就是用于训练的文本 和 真实应用的
文本差异较大,导致训练得到的模型只能拟合训练集。这一点也适用于其他
机器学习任务;
d 未登录词。这个也好理解,词典中么有的词,自然就无法判断词性了。当然
方法总是有的,下篇再讲。
上述a和c是所有机器学习任务的共同诉求或问题。这4个因素对词性标注的重要性不用我说,请看原文“It is important to stress that these types ofexternal conditions often have a stronger influence on performance than thechoice of tagging method especially when differences between methods reportedare on the order of half a percent.”
词性标注正确率达到90%是不难的,所以本书作者认为真正有意义的在于90%以上向100%的接近程度。97%的正确率看起来够高了吧?但如果以该模型为一个15词的句子标注,句子完全标注正确的概率只有63%,哈哈,坑爹吧。。。
3 词性标注的应用
a 为 句法分析 预处理;
b 为 词汇获取 预处理;
c 为 信息抽取 预处理;
d 其他。
词性标注单独干不成什么事,但没有它也很难干成事(注意,不是不能)。
4 词性标注需要借助哪些信息
a 万能的上下文;
b 词本身的信息,通过查字典得到。
上下文在NLP中也是个万金油,只要有足够多的上下文,就么有消除不了的歧义,么有分析不了的句法,么有标注不了的词性。
- 《统计自然语言处理基础》笔记(4)词性标注 之 作用和影响性能的主要因素
- 自然语言处理基础技术之分词、向量化、词性标注
- 自然语言处理基于java实现(2) 之 词性标注
- 自然语言处理——自动标注词性
- 统计自然语言处理梳理一:分词、命名实体识别、词性标注
- 统计自然语言处理基础-笔记-数学基础
- HMM在自然语言处理中的应用一:词性标注
- 《统计自然语言处理基础》笔记(3)词汇获取 之 简介
- 统计自然语言的合理性--标注
- (笔记)统计自然语言处理基础 第1章 绪论
- 统计自然语言处理基础学习笔记(1)
- 统计自然语言处理基础-笔记-绪论
- 统计自然语言处理基础学习笔记(1)
- 统计自然语言处理 之 数学基础
- 统计自然语言处理 之 数学基础
- 统计自然语言处理的基础学习之一
- 统计自然语言处理的基础学习之一
- 影响分辨率的主要因素
- C函数传递二维数组
- WebForm知识点总结
- Linux下利用backtrace追踪函数调用堆栈以及定位段错误
- LeetCode || Sort List
- mysql简单的使用
- 《统计自然语言处理基础》笔记(4)词性标注 之 作用和影响性能的主要因素
- java中怎么设置文件权限
-
- PowerDesigner15反向工程生成ER图
- 实现文件夹或文件的复制
- java插件安装
- 五种开源协议的比较(BSD,Apache,GPL,LGPL,MIT)
- 在MATLAB中,可以注释一段程序。
- 坑人的Visual Assist 和 Visual Studio 2012