PLSI( probabilistic latent semantic indexing ) 词分类,文档分类
来源:互联网 发布:淘宝投诉凭证上传失败 编辑:程序博客网 时间:2024/04/27 15:07
原文地址:http://www.cnblogs.com/25-to-life/archive/2011/03/05/1971492.html
LSA对于许多搞IR和NLP的来说应该不陌生吧,LSA用SVD降维,然后来根据word distribution,来分类文档
而LSA的劣势在于,没有比较好的统计基础,这个和当前流行趋势是不相符的。
所以PLSA,用概率模型来做文档分类,或者词聚类。等
要求你有个word dictionary.假设为SETWord ={w1,w2,w3..}
事前定义好的几个分类,例如: SetTopic = {t1, t2, t3...}
最后是一个分类未知的杂合文档集, SetDoc = {d1,d2,d3...}
可以试想,一个作者在写关于某个文档时候的思路
1. 确定要写的一个topic, P(t)
2. 选择一系列的词,这些词要和当前topic t相关的,所以为P(w|t).
3. 用这些词组成一个文档, P(d|w)。
这个是顺德思路。
那么当我们已经得到一堆文档的情况下。我们要反过来想,这个就是PLSI的三步走
1. 在文档集中挑选一篇文档d的概率, P(d)
2. 这篇文档描述内容是关于topic-t的概率: P(t|d)
3. 这个topic中,包含了文档当前内容w的概率: P(w|t)
当然, 可以明显看出最后一条原本应该是:P(w|t,d),而这就是PLSI的假设:文档中字和具体某个文档无关。所以P(w|t,d)==》P(w|t)
那么由于是无监督学习分类过程
p(d,w) = p(d)p(w|d)
p(w|d) = ∑p(w|t)p(t|d) (t∈T)
合并两个方程式,得
p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(t|d)p(d)
p(t|d)p(d) = p(t,d) = p(d|t)p(t)
再得p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(d|t)p(t) (t∈T)
我们要去求的结果是p(w|t)和p(d|t)..
E-STEP: p(t|d,w) = p(w|t)p(d|t)p(t)/∑( p(w|t')p(d|t')p(t'))
M-STEP:
p(w|t) = ∑(n(d,w)*p(t|d,w))【 - 对于所有的d都计算】/ ∑(n(d,w)*p(t|d,w))【 - 对于所有的 变d, 定w 都计算】
同理p(d|t) = ∑(n(d,w)*p(t|d,w))【 - 对于所有的w都计算】/ ∑(n(d,w)*p(t|d,w))【 - 对于所有的 定d, 变w都计算】
p(z) = ∑(n(d,w)p(z|w,d)),所有的属于z的时候的统计/∑n(d,w)(所有文档,所有分类综合.
直观而言, PLSI输出是两个matrix 和 一个vector
matrix:
p(w|t) 定义了在topic下的一个词的分布。
p(d|t)定义了各个文档在此topic下的分布。
- PLSI( probabilistic latent semantic indexing ) 词分类,文档分类
- PLSI( probabilistic latent semantic indexing ) 词分类,文档分类
- Topic Model之Probabilistic Latent Semantic Indexing(PLSI/PLSA)
- Latent Semantic Indexing Model
- Latent semantic Indexing(LSI)
- Probabilistic Latent Semantic Analysis(PLSA)
- Latent Semantic Indexing
- Latent semantic analysis note(LSA) or Latent Semantic Indexing (LSI)
- 【推荐】LSI(latent semantic indexing) 完美教程
- 隐含语义索引(Latent Semantic Indexing )
- 潜在语义索引(Latent Semantic Indexing)
- Non-negative Matrix Factorization and Probabilistic Latent Semantic Analysis
- Non-negative Matrix Factorization and Probabilistic Latent Semantic Analysis
- Non-negative Matrix Factorization and Probabilistic Latent Semantic Analysis
- plsa(Probabilistic Latent Semantic Analysis) 概率隐语义分析
- LSI (Latent Semantic Indexing)隐语义索引简介
- LSI (Latent Semantic Indexing)隐语义索引简介
- [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
- iOS中NSDate和NSCalendar的简单用法
- 【HTTP】Fiddler(一) - Fiddler简介
- 浅谈CSRF攻击方式
- putty 命令行参数
- close-on-exec的FD_CLOEXEC标志问题
- PLSI( probabilistic latent semantic indexing ) 词分类,文档分类
- plupload在IE8和IE9上无法完成附件大小校验
- scala学习笔记(十一) 高阶函数
- iOS 即时视频和聊天(基于环信)
- EditText设置为多行时,光标不在左上方
- 一次二次三次bezier曲线的计算方式及demo演示
- Session的生命周期
- 《程序员面试金典》空格替换
- 图片处理类 类库