程序博客网 > 豆瓣电影推荐算法

[机器学习入门] 李宏毅机器学习笔记-30 (Sequence Labeling Problem part 2 ;结构化预测-序列标记 part 2)

来源：互联网发布：豆瓣电影推荐算法编辑：程序博客网时间：2024/05/17 02:47

[机器学习入门] 李宏毅机器学习笔记-30 (Sequence Labeling Problem part 2 ;结构化预测-序列标记 part 2)

PDF VIDEO

上接 part 1

Sequence Labeling Problem

Outline

这里写图片描述

CRF

CRF同样也要描述P(x,y),P与图中式子成正比。

这里写图片描述

P(x,y) for CRF

CRF与HMM其实并没有那么不同，它们的model是一样的，只是在training上有所不同。

这里写图片描述

紫色部分：如果有10个可能的词性tag，世界上有10000个word的话，s就有10个不同的可能，t就有10000个不同的可能，紫色部分就是Summation 10*10000项，里面每一项就是word t被标示成tag s这件事在x，y这对pair中总共出现的次数。
红色部分：根据现在的model，word t 被取 tag s 的几率取log。

这里写图片描述

为什么可以做这样的转化呢？举个栗子。

这里写图片描述

所以对其他项也可以做几乎一样的转化。

这里写图片描述

如此这般，发现可以吧logP(x,y)写成一大堆两项的相乘。

这里写图片描述

有个地方需要额外注意一下，对应某个纬度的weight ，w是可以与HMM里面的几率相对应的，而且是可以通过exp()做转化的，因为没办法保证所求出来的exp是小于1的，所以不能说相等，而说他们成正比。

这里写图片描述

Feature Vector

就直接记住，CRF的几率就是一个exp下，一个weight 和一个feature vector的inner products，那么这个feature ��(x,y)长什么样子呢？是由两个部分组成的。
part1，所有词性与词汇的pair，维度就是（词性tag*所有的词汇），特点是维度非常大，但有值的地方不多。

这里写图片描述

part 2，词性之间相接的次数，维度就是（词性tag*词性tag+2*词性tag），其中2*词性tag是与start与end的pair。

这里写图片描述

这里写图片描述

CRF比HMM厉害在于可以自己定feature vector，非常灵活。

CRF – Training Criterion

那么CRF该怎么train呢？

这里写图片描述

CRF – Gradient Ascent

用gradient ascent来求解，与gradient descent非常像。

这里写图片描述

CRF - Training

这里写图片描述

这里写图片描述

这里解释一下，绿色框框，s与t 这个pair，在我们的training data中出现的次数越高，对应的weight w 的值就越大。
黄色框框，如果s与t 这个pair，不只在正确在任意一个xy组合中出现的次数都很大的话，就应该把w减小。

这里写图片描述

CRF – Inference

把w求出来，就可以做inference

CRF v.s. HMM

这里写图片描述

CRF - Summary

这里写图片描述

阅读全文

1 0

豆瓣电影推荐算法

豆瓣电影推荐算法

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子山药豆发芽还能吃吗孕妇山药豆山药豆的吃法与做法山药豆孕妇能吃吗出售山药豆山药豆是什么糖炒山药豆的做法大全山药豆孩子吃多了中毒山药豆糖葫芦怎么做山药豆批发价格孕妇能吃山药豆吗山药豆可以吃吗荷兰豆炒山药的做法山药豆功效与作用是什么山药豆供应山药豆是蒸还是煮麻山药豆的价格山药豆多少钱一斤山药豆能减肥吗小山药豆怎么做好吃山药豆发芽了还能吃吗山药豆能种吗山药豆食用方法糖炒山药豆的做法窍门山药豆的做法大全家常山药豆怎样种植方法山药豆怎么做山药豆孕妇可以吃吗铁棍山药豆的皮能吃吗孕妇可以吃山药豆吗山药豆皮可以吃吗山药和山药豆的区别怎样种山药豆麻山药豆的做法山药豆的功效山药豆种植山药豆长在哪里图片山药豆和山药的区别山药豆怎么去皮山药豆的皮能吃吗山药豆的吃法