[机器学习入门] 李宏毅机器学习笔记-30 (Sequence Labeling Problem part 2 ;结构化预测-序列标记 part 2)

来源:互联网 发布:豆瓣电影推荐算法 编辑:程序博客网 时间:2024/05/17 02:47

[机器学习入门] 李宏毅机器学习笔记-30 (Sequence Labeling Problem part 2 ;结构化预测-序列标记 part 2)

PDF VIDEO

上接 part 1

Sequence Labeling Problem

Outline

这里写图片描述

CRF

CRF同样也要描述P(x,y),P与图中式子成正比。

这里写图片描述

P(x,y) for CRF

CRF与HMM其实并没有那么不同,它们的model是一样的,只是在training上有所不同。

这里写图片描述

紫色部分:如果有10个可能的词性tag,世界上有10000个word的话,s就有10个不同的可能,t就有10000个不同的可能,紫色部分就是Summation 10*10000项,里面每一项就是word t被标示成tag s这件事在x,y这对pair中总共出现的次数。
红色部分:根据现在的model,word t 被取 tag s 的几率取log。

这里写图片描述

为什么可以做这样的转化呢?举个栗子。

这里写图片描述

所以对其他项也可以做几乎一样的转化。

这里写图片描述

如此这般,发现可以吧logP(x,y)写成一大堆两项的相乘。

这里写图片描述

有个地方需要额外注意一下,对应某个纬度的weight ,w是可以与HMM里面的几率相对应的,而且是可以通过exp()做转化的,因为没办法保证所求出来的exp是小于1的,所以不能说相等,而说他们成正比。

这里写图片描述

Feature Vector

就直接记住,CRF的几率就是一个exp下,一个weight 和 一个feature vector的inner products,那么这个feature ��(x,y)长什么样子呢?是由两个部分组成的。
part1,所有词性与词汇的pair,维度就是(词性tag*所有的词汇),特点是维度非常大,但有值的地方不多。

这里写图片描述

part 2,词性之间相接的次数,维度就是(词性tag*词性tag+2*词性tag),其中2*词性tag是与start与end的pair。

这里写图片描述

这里写图片描述

CRF比HMM厉害在于可以自己定feature vector,非常灵活。

CRF – Training Criterion

那么CRF该怎么train呢?

这里写图片描述

CRF – Gradient Ascent

用gradient ascent来求解,与gradient descent非常像。

这里写图片描述

CRF - Training

这里写图片描述

这里写图片描述

这里解释一下,绿色框框,s与t 这个pair,在我们的training data中出现的次数越高,对应的weight w 的值就越大。
黄色框框,如果s与t 这个pair,不只在正确在任意一个xy组合中出现的次数都很大的话,就应该把w减小。

这里写图片描述

CRF – Inference

把w求出来,就可以做inference
这里写图片描述

CRF v.s. HMM

这里写图片描述

CRF - Summary

这里写图片描述

阅读全文
1 0
原创粉丝点击