LDA学习l

来源:互联网 发布:双色球红球最简单算法 编辑:程序博客网 时间:2024/05/01 16:15

一直被LDA等等算法的产生的结果之玄妙吸引,刚好也要挖掘文本特征,借这个机会先了解LDA,目标是应用之~~


显示粗略看了几篇文章,发现不少人直接看最经典的那几篇论文看晕了,打算也不直接从原文入手,根据网上的经验,把几个好文按顺序看了下来:


入门从这篇开始: http://hi.baidu.com/batmanfly/item/b011abc5fe4f33b80c0a7b7c 

开头比较易懂,理解了 主题topic穿插到正常的贝叶斯公式中从而形成一个三层的网络 (Document - Topic - Word)

而P(w|d) = sigma(P(w|z)*P(z|d)) 的后两者训练出来,就是Topic Model

到了后面,讲共轭先验的时候就开始费解了,Dirichlet prior、Bayes prior smoothing等等

跟踪到这篇

http://www.cnblogs.com/xueliangliu/archive/2012/08/02/2962161.html

有点回忆起参数估计、假设检验的知识,所谓的贝叶斯估计,无非就是根据已知的一组值,和这组值服从的分布,估计出这组值的分布的参数;或者已知分布的参数,根据这组值,估计出新的测量结果(真正的值)分布。

进一步,发现这里 http://nlp.stanford.edu/courses/cs224n/2001/gruffydd/smoothing.html


and一篇不错的数学基础科普文(有pdf):http://www.52nlp.cn/lda-math-%E6%B1%87%E6%80%BB-lda%E6%95%B0%E5%AD%A6%E5%85%AB%E5%8D%A6



http://blog.csdn.net/junshichao/article/details/7644182 里面链接的一篇百度技术博客挺不错

 


0 0
原创粉丝点击