LDA原理(3)知识储备之PLSA
来源:互联网 发布:2017淘宝买家信息出售 编辑:程序博客网 时间:2024/06/01 09:57
在讲PLSA概率潜在语义模型(似乎比LSA更容易解释 啊)之前
我们先定义一些表示:
- D表示语料库
- M表示该语料库中有M篇文档
- V表示语料库中的词的个数(当然重复的词只算一次)
- N表示语料库中词的词频(重复的也算),那么V个词,每个词的- 词频记为
ni - d就是语料库中的一篇文档,
wi 表示文档中的第i个词
注意这是“概率”而不是贝叶斯派的思想哦,下面的过程中你也可以思考如果是贝叶斯派应该会怎么想这个问题。
如果我们假设一篇文章的生成过程是这样的,首先确定这个文章涉及几个主题(每个主题呢,都有和这个主题相关的词),开始写文章,每写一个词的时候,都要选择主题,然后在这个主题下选择词。每一个词都是这样产生,直到文章结束。
整个过程就像是上帝掷骰子,当你开始要写某一篇文章(例如第m篇)的时候,你明确文章几个主题(如K个主题,每个主题分别是语文、数学、等),就相当于上帝现做了一个“doc-topic”骰子,这个骰子有K个面,对应K个主题(参数
然后上帝又做了K个骰子“topic-word”骰子(每个骰子的参数是
现在写文章就是上帝掷骰子,每写一个词,就是上帝先投“doc-topic”骰子,如结果是第i面(对应一个主题),那么在拿起对应的第i个“topic-word”骰子,掷出一个词。
那么第m篇文档dm的某一个词w的生成概率:
如果这篇文档
阅读全文
0 0
- LDA原理(3)知识储备之PLSA
- LDA原理(2)知识储备之贝叶斯派和概率派
- LAD原理(1)知识储备之函数和分布
- LDA文本建模(3)——pLSA模型和LDA模型
- LDA(一):LDA前身PLSA介绍与推导
- LDA PLSA 比较总结
- pLSA 和 LDA
- LDA 与 PLSA对比
- 知识储备(备忘录)
- 【机器学习】主题模型(二):pLSA和LDA
- LDA和PLSA的区别
- Bayes classifier and LDA, PLSA
- 深入理解LDA和pLSA
- 【转】主题模型--pLSA,LDA
- 深入理解LDA和pLSA
- topic model (LSA、PLSA、LDA)
- 知识储备
- 知识储备
- oracle从a表导入到b表的方法
- Vue常用经典开源项目汇总参考
- tf2
- adb devices显示的设备号
- LeetCode45_Jump Game II
- LDA原理(3)知识储备之PLSA
- TI的CCS7.3.0安装教程
- 前台页面非常棒,借鉴
- LeetCode:M-547. Friend Circles
- TypeScript学习(一)——TypeScript简介及环境准备
- Java学习笔记(20)-- main方法
- RabbitMq在spring boot中集成和应用
- SecureCRT中python脚本编写学习指南
- AngularJS监听页面关闭,定时器$interval()的使用