LDA Topic Model Matlab 代码简介
来源:互联网 发布:整形网络咨询技巧 编辑:程序博客网 时间:2024/06/07 06:18
用Google搜索LDA topic模型代码似乎只有这个网址:http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm
比较靠谱。师弟在用,我这里大概讲一下。主要的就是参数的意思。
主要的函数是:
GibbsSamplerLDA( WS , DS , T , N , ALPHA , BETA , SEED , OUTPUT );
参数主要有WS,DS,T,剩下的都是一些不关键的数据。
WS表示的是Word的分布,DS表示的是Document的分布
假设我们有词典里面有8000个单词。
WS是一个1*10000的向量,那么WS里面min为1,max就是8000.
同样的DS也是一个1*10000的向量,这里的min为1,max表示的就是document的数量。
WS和DS是一一对应的,假设WS(1,9)=389,DS(1,9) = 103.
表示的就是第389个单词在第103个文档里面。
T表示的最终提取的Topic的个数。N是迭代次数,剩下的参数我们选择默认的就可以。
这样输出的结果是WP,DP,Z。
WP表示的是word和topic之间的关系,我们可以说是概率分布。
DP表示的是document和topic之间的关系,或概率分布。
Z是什么我还真没分析出来,知道的同学可以告诉我。
怎么得到最好的topic分布呢。
如果你的T,也就是topic数量设为50,那么WP就是一个8000*50的矩阵。
8000就是上面说的单词,WP(i,j)表示的就是第i个单词在第j个topic里面的权重。
所以我们就可以根据这个权重来排序,从而得到每个topic里面的单词。
例如我们去WP(:,j)这一列表示的就是对于第J个topic。每个单词的权重,
按照降序排列,我们再取前10个单词,于是就得到了topic J。
具体的概率计算可以参考函数:
WriteTopics( WP , BETA , WO , 10 , 0.7 , 4 , 'topics.txt' );
- LDA Topic Model Matlab 代码简介
- Topic Model 与 LDA
- topic model之LDA
- vsm,topic model,LDA比较
- topic model (LSA、PLSA、LDA)
- 【LDA】基于LDA的Topic Model变形
- 基于LDA的Topic Model变形
- 基于LDA的Topic Model变形
- 基于LDA的Topic Model变形
- 基于LDA的Topic Model变形
- 基于LDA的Topic Model变形
- 9-基于LDA的Topic Model变形
- 基于LDA的Topic Model变形
- 9-基于LDA的Topic Model变形
- 基于LDA的Topic Model变形
- 【NLP基础】基于LDA的Topic Model变形
- Topic Model的分类总结(LDA变种)
- Topic Model的分类总结(LDA变种)
- Java常用类库..【Pnoter】
- 通过阅读、分析和翻译二进制格式的Java Class文件学习Java Class的技术
- 逻辑推理与判断(谜语博士的难题(2))
- Android 实现形态各异的双向侧滑菜单 自定义控件来袭
- ZendDebugger.dll
- LDA Topic Model Matlab 代码简介
- Ubuntu下QT的安装详细教程
- 黑马程序员Android第55期——Servlet API 总结
- CentOS/Linux 修改默认SSH端口号
- 最近...
- 1.27工作日志
- std::vector
- three.js 源码注释(七十二)extras/geometries/PlaneGeometry.js
- HDU_2059 Race of rabbit and tortise(DP)