程序博客网 > 读读日报关注知乎日报

[机器学习入门] 李宏毅机器学习笔记-29 (Sequence Labeling Problem part 1;结构化预测-序列标记 part 1)

来源：互联网发布：读读日报关注知乎日报编辑：程序博客网时间：2024/06/06 07:15

[机器学习入门] 李宏毅机器学习笔记-29(Sequence Labeling Problem part 1;结构化预测-序列标记 part 1)

PDF VIDEO

Sequence Labeling

这里写图片描述

Example Task

POS tagging

词性标注，必须要考虑整个句子的information，所以光靠查表是无法解决的。

这里写图片描述

这里写图片描述

Outline

这里写图片描述

Hidden Markov Model (HMM)

隐马尔科夫模型
人是用一下两个步骤产生句子的。

HMM 2 steps

这里写图片描述

数字表示词相接的几率
比如动词后面接冠词，冠词后面接名词

这里写图片描述

产生某一词的几率就是一路上相乘的结果

这里写图片描述

HMM就是在描述说出某一句话的几率

这里写图片描述

总结一下

这里写图片描述

HMM – Estimating the probabilities

那么这个路径里的几率该如何得到呢？这就需收集data了。

这里写图片描述

有了充沛的标注数据集，这个问题就容易解决了。计算方法就是，比如，s后面接t的次数／s出现的个数=s后面接t的概率

这里写图片描述

HMM – How to do POS Tagging?

回到我们的任务是，有了句子x，找y，而y是未知的。
通过上面得到的几率，我们要把y找出来。

这里写图片描述

自然而然会想到是，概率最大的就是y，通过穷举y就可以实现。

这里写图片描述

HMM – Viterbi Algorithm

维特比算法

我们会发现，穷举的思想虽然容易想到，但是计算数量级会很大，还好我们有维特比算法来降低计算量。

这里写图片描述

HMM-Summary

这里写图片描述

HMM-Drawbacks

这里写图片描述

但是HMM有个问题，会脑补没有出现过的句子，很可能在training data中没有出现过的搭配却表现地不错，这种特点说明它在数据很少的时候是比较适用的。
那么为什么会产生这种脑补的现象，因为对他来说，transition probability和deviation 的probability是independent。

这里写图片描述

那么CRF就能解决这一问题。

（下接part 2 ）

阅读全文

0 0

读读日报关注知乎日报

读读日报关注知乎日报

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子远程和函授的区别函授本科是什么函授大专一般被认可吗成人大学函授函授本科好过吗函授和成教的区别函授本科什么意思函授与成教的区别现在函授本科有用吗成人函授教育非学历教育成人夜大文凭有用吗专升本可以换专业吗 365自考自考本科学位证有用吗自学考试和成人高考的区别成人学士学位英语成考大专文凭有用吗成人大专文凭有用吗中南财经政法大学自考大自考本科文凭有用吗含授自考会计专科科目夜大报名自考专科要多久自考座位查询系统成人大学文凭有用吗涵授本科函数大专证书有用吗电大毕业证有用吗成教专科文凭有用吗成人考试和自考的区别学理科有哪些专业涵授大专是什么意思函数本科什么是自考本科网络教育本科含金量学历本科成人大学毕业证有用吗成教是什么大专毕业证可以买吗