[机器学习入门] 李宏毅机器学习笔记-29 (Sequence Labeling Problem part 1;结构化预测-序列标记 part 1)
来源:互联网 发布:读读日报 关注知乎日报 编辑:程序博客网 时间:2024/06/06 07:15
[机器学习入门] 李宏毅机器学习笔记-29(Sequence Labeling Problem part 1;结构化预测-序列标记 part 1)
Sequence Labeling
Example Task
POS tagging
词性标注,必须要考虑整个句子的information,所以光靠查表是无法解决的。
Outline
Hidden Markov Model (HMM)
隐马尔科夫模型
人是用一下两个步骤产生句子的。
HMM 2 steps
数字表示词相接的几率
比如动词后面接冠词,冠词后面接名词
产生某一词的几率就是一路上相乘的结果
HMM就是在描述说出某一句话的几率
总结一下
HMM – Estimating the probabilities
那么这个路径里的几率该如何得到呢?这就需收集data了。
有了充沛的标注数据集,这个问题就容易解决了。计算方法就是,比如,s后面接t的次数/s出现的个数=s后面接t的概率
HMM – How to do POS Tagging?
回到我们的任务是,有了句子x,找y,而y是未知的。
通过上面得到的几率,我们要把y找出来。
自然而然会想到是,概率最大的就是y,通过穷举y就可以实现。
HMM – Viterbi Algorithm
维特比算法
我们会发现,穷举的思想虽然容易想到,但是计算数量级会很大,还好我们有维特比算法来降低计算量。
HMM-Summary
HMM-Drawbacks
但是HMM有个问题,会脑补没有出现过的句子,很可能在training data中没有出现过的搭配却表现地不错,这种特点说明它在数据很少的时候是比较适用的。
那么为什么会产生这种脑补的现象,因为对他来说,transition probability和deviation 的probability是independent。
那么CRF就能解决这一问题。
(下接part 2 )
阅读全文
0 0
- [机器学习入门] 李宏毅机器学习笔记-29 (Sequence Labeling Problem part 1;结构化预测-序列标记 part 1)
- [机器学习入门] 李宏毅机器学习笔记-30 (Sequence Labeling Problem part 2 ;结构化预测-序列标记 part 2)
- [机器学习入门] 李宏毅机器学习笔记-31 (Sequence Labeling Problem part 3 ;结构化预测-序列标记 part 3)
- [机器学习入门] 李宏毅机器学习笔记-35(Ensemble part 1;集成方法 part 1)
- [机器学习入门] 李宏毅机器学习笔记-26(Structured Support Vector Machine part 1;结构化支持向量机part 1)
- [机器学习入门] 李宏毅机器学习笔记-27(Structured SVM part 2;结构化支持向量机 part 2)
- [机器学习入门] 李宏毅机器学习笔记-28 (Structured SVM part 3 ;结构化支持向量机 part 3)
- [机器学习入门] 李宏毅机器学习笔记-21(Transfer Learning part 1 ; 迁移学习 part 1)
- [机器学习入门] 李宏毅机器学习笔记-18 (Deep Generative Model-part 1:深度生成模型-part 1)
- [机器学习入门] 李宏毅机器学习笔记-32 (Recurrent Neural Network part 1;循环神经网络 part 1)
- [机器学习入门] 李宏毅机器学习笔记-36(Ensemble part 2;集成方法 part 2)
- [机器学习入门] 李宏毅机器学习笔记-22(Transfer Learning part 2;迁移学习 part 2)
- [机器学习入门] 李宏毅机器学习笔记-19 (Deep Generative Model-part 2:深度生成模型-part 2)
- [机器学习入门] 李宏毅机器学习笔记-20 (Deep Generative Model-part 3:深度生成模型-part 3)
- [机器学习入门] 李宏毅机器学习笔记-33 (Recurrent Neural Network part 2;循环神经网络 part 2)
- [机器学习入门] 李宏毅机器学习笔记-34 (Recurrent Neural Network part 3;循环神经网络 part 3)
- [机器学习入门] 李宏毅机器学习笔记-25(Sturctured Linear Model;结构化预测-线性模型)
- Stanford 机器学习练习 Part 1 Linear Regression
- Android Things:外设I/O接口-GPIO
- 【C++】对象模型
- 三维迷宫
- Android 程序以及在4.4.4以上报错但是在4.4.4以上不报错
- 二叉堆
- [机器学习入门] 李宏毅机器学习笔记-29 (Sequence Labeling Problem part 1;结构化预测-序列标记 part 1)
- Flex布局
- c语言运算符与表达式
- Spark中的checkpoint作用与用法
- 策略模式
- mysql-connector-java:6.0.6连接jdbc出错的解决方案
- CodeBlocks用法(C/C++ IDE)
- HDU1017 ZOJ1152 A Mathematical Curiosity【暴力】
- Java源码阅读之LinkedList