n-gram重探 Q&A

来源:互联网 发布:linux虚拟机建立文件夹 编辑:程序博客网 时间:2024/06/06 04:18

  虽然之前一直用这个最基本的模型,但今天发现自己对这个模型确实不够熟悉,因此,对此参考了不少文献,以问答的形式进行了整理。

1、n-gram的训练是什么?训练的参数是什么?

  对于模型某条字符串的计算公式是:P(wk1) = P(w1)P(w2|w1)P(wk|wk11)n-gram就是P(wk|wk11)=P(wk|wk1kn+1),忽略了它的历史。
  假设在一个模型里,单词数量为V。对于一个1-gram来说,有V1个独立的参数,对于这些参数,我们施加一个约束(参数和为1)。对于一个2-gram来说,P(w2|w1)的独立参数个数是 V(V1),而P(w)的个数是V1,因此总的独立参数为V(V1)+V1=V21。总之,一个n-gram的独立参数个数是Vn1,其中对于P(wn|wn11)的参数是Vn1(V1),我们叫做n阶参数(order-n parameters);加上n1-gram的总共Vn11个参数,和为Vn11个参数。
  说完了参数,我们说下训练。对于训练集, 我们对以上参数进行最大似然估计(MLE),估计方法如下:P(wn|wn11)=C(wn11wn)wC(wn11w),其中C是count的意思。

2、n-gram这里的MLE是怎么得出来的?

  统计次数就代表了它的最大似然估计,是因为对于n-gram模型来说,我们把这个模型的预测,当成了一个多项分布。对于后继出现的词汇的概率,根据其多项分布的概率进行预测。从直观上这么理解多项分布:我们获得一个语料,类似于骰子,这个骰子有X面,每一面对应着上面所提到的独立参数。每一面都是互斥的,穷举的状态,其和为1。(这个多项分布的概念,在很多自然语言处理书和论文里都没有提及,以至于MLE结果的得出不容易理解。)
  P(x1,x2,xk)=i=1kpxii,满足i=1kpi=1
  x1,x2,xk是指示变量,当输出的状态为kxk1,否则为0。这里的状态,就是预测的词汇。对于多项分布,其参数,也就是pi的最大似然估计是:
  pi^=txtiN
  这也就是刚好是统计次数,count部分。

3、n-gram既然使用了MLE,那能不能引入最大后验估计(MAP)或者贝叶斯估计?

  答案是可以的。我们问题1里提到的参数,如果看成是一个随机变量,那么我们可以引入先验分布,使用贝叶斯公式。
  p(θ|χ)=p(χ|θ)p(θ)p(χ|θ)p(θ)dθ
  最大后验估计: θMAP=argmaxθΘp(χ|θ)p(θ)
  贝叶斯估计: θB=E[θ|χ]
  正如问题2所说,n-gram使用了多项分布,而我们都知道多项分布的共轭分布是狄利克雷分布,因此,使用狄利克雷分布作为先验分布,是一个很自然而想法。
  在狄利克雷先验下的最大后验估计是:
  θMAP=argmaxθΘΓ(Kk=1αK)Kk=1Γ(αK)k=1Kθnk+αk1k
等价于加m平滑的最大似然估计,先验可以通过大量通用语料训练,然后使用小规模的领域专用数据进行计算贝叶斯最大后验估计。

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 ipad登录显示验证失败怎么办 苹果手机系统内存太大怎么办 ipad玩游戏没声音怎么办 微信活跃度低怎么办 想开通淘宝直播粉丝不够怎么办 下巴长泡泡还痒怎么办 脚起泡泡很痒怎么办 脚痒还有小泡泡怎么办 外阴长了肉疙瘩怎么办 嘴巴里泡泡破了怎么办 脚上泡泡破了怎么办 脸被自己扣破了怎么办 6s安装不了软件怎么办 苹果6s特别卡怎么办 苹果手机4g网慢怎么办 大王卡玩王者卡怎么办 荣耀7c手机卡顿怎么办 华为6x手机卡顿怎么办 荣耀7c手机老卡怎么办 苹果6打王者卡怎么办 电脑玩游戏显示显卡不行怎么办 笔记本玩游戏显卡不行怎么办 笔记本玩英雄联盟有点卡怎么办 英语考试作文抄了阅读理解怎么办 qq账号被盗怎么办很久了 想玩线上德州没有渠道怎么办 手机玩久了头晕怎么办 玩3d游戏头晕恶心怎么办 win10打cf没声音怎么办 英雄联盟玩家尚未准备就绪怎么办 玩手机想吐应该怎么办 玩手机多了头晕怎么办 玩cf老是无响应怎么办 玩穿越火线好卡怎么办 绝地求生画质卡顿怎么办 手机热点玩lol卡怎么办 一加6直播触手黑屏怎么办 ipad应用商店密码忘记了怎么办 爱派忘记了密码怎么办 爱派id密码忘了怎么办 爱派密码忘了怎么办