关于LDA的一些思考
来源:互联网 发布:c语言神奇海螺 编辑:程序博客网 时间:2024/06/06 03:14
问1:LDA生成一个文档的过程是什么样的?
答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α)
2)对于文档d中每个位置i对应的单词,按如下方式生成
2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d)
2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β)
3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)
问2:LDA怎样使用吉布斯采样进行模型训练?
答2:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型
问3:LDA怎样使用吉布斯采样进行模型预测?
答3:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计文档的topic分布
5)注:模型与测试topic-word共现频率矩阵不更新
问4:LDA中吉布斯采样公式是什么?
答4:1)参数α为向量,对应每个topic的值为α_k
2)参数β为向量,对应每个词的值为β_t
3)忽略第m篇文档中第i个单词,文档m属于主题k的频次n_m_k定义为:文档中主题k的单词的个数(不包括第i个单词)
4)忽略第m篇文档中第i个单词,主题k下词t的频次n_k_t定义为:主题k下所有文档中词t的个数(不包括文档m中第i个词)
5)第m篇文档,第i个单词,属于主题k的概率如下:p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))
答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α)
2)对于文档d中每个位置i对应的单词,按如下方式生成
2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d)
2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β)
3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)
问2:LDA怎样使用吉布斯采样进行模型训练?
答2:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型
问3:LDA怎样使用吉布斯采样进行模型预测?
答3:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计文档的topic分布
5)注:模型与测试topic-word共现频率矩阵不更新
问4:LDA中吉布斯采样公式是什么?
答4:1)参数α为向量,对应每个topic的值为α_k
2)参数β为向量,对应每个词的值为β_t
3)忽略第m篇文档中第i个单词,文档m属于主题k的频次n_m_k定义为:文档中主题k的单词的个数(不包括第i个单词)
4)忽略第m篇文档中第i个单词,主题k下词t的频次n_k_t定义为:主题k下所有文档中词t的个数(不包括文档m中第i个词)
5)第m篇文档,第i个单词,属于主题k的概率如下:p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))
阅读全文
0 0
- 关于LDA的一些思考
- 关于 sizeof() 的一些思考
- 关于sizeof()的一些思考
- 关于useBean的一些思考
- 关于素质的一些思考
- 关于 sizeof() 的一些思考
- 关于 sizeof() 的一些思考
- 关于 sizeof() 的一些思考
- 关于 sizeof() 的一些思考
- 关于sizeof()的一些思考
- 关于登陆的一些思考
- 关于sizeof()的一些思考
- 关于p2p的一些思考
- 关于代码的一些思考
- 关于 sizeof() 的一些思考
- 关于软件产业的一些思考
- 关于局域网的一些思考
- 关于sizeof()的一些思考
- JBPM(一)---JBPM简介及其开发环境搭建
- Strings of Power
- Android的surfaceView讲解
- 转:typedef函数指针的用法(C++)
- 一个机器学习博士生的忠告
- 关于LDA的一些思考
- 简单实现H5调起手机相机和相册
- gulp前端自动化构建工具新手入门篇
- pthread_create函数创建线程失败的原因
- 在单用户模式下修改CentOS的root密码
- BaseCode之文件工具类:FileUtil.java
- 文章标题
- Android学习--底部导航Fragment填充
- jsp数据交互(一)