《textanalytics》课程简单总结(2):topic mining
来源:互联网 发布:oracle sql列转行函数 编辑:程序博客网 时间:2024/05/21 18:48
coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。
1、“term as topic”有很多问题:
2、Improved Idea: Topic = Word Distribution:
3、定义问题(Probabilistic Topic Mining and Analysis):
4、解决问题之道(Generative Model for Probabilistic Topic Mining and Analysis):
– Model data generation with a prob. model: P(Data |Model, λ)
– Infer the most likely parameter values λ* given a particular data set: λ* = argmaxλ p(Data| Model, λ)
– Take λ* as the “knowledge” to be mined for the text mining problem
– Adjust the design of the model to discover different knowledge
其中:λ=({ theta1, …, thetak }, { π11, …, π1k }, …, { πN1, …, πNk })
5、The Simplest Language Model(generative model): Unigram LM
通过独立的生成每一个词进而产生文档,因此:
• p(w1 w2 ... wn)=p(w1)p(w2)…p(wn)
• 参数为: {p(wi)} ,且 p(w1)+…+p(wN)=1 (N is voc. size)
• Text = sample drawn according to this word distribution,例如:
p(“today is Wed”) = p(“today”)p(“is”)p(“Wed”) = 0.0002 * 0.001 * 0.000015
6、两种估计文本产生概率的办法:
•最大似然估计
“最好”意味着“样本数据的似然值达到最大”:。
问题是,样本一般较小。
• 贝叶斯估计
“最好”意味着“和‘先验’一致,同时能很好解释样本数据”,即Maximum a Posteriori (MAP) estimate。
问题是,如何定义“先验”。
7、多个Unigram Language Model混合(以两个为例):
8、Probabilistic Topic Models: Expectation-Maximization (EM) Algorithm
例子:
9、Probabilistic Latent Semantic Analysis (PLSA)
本质思想:
数学关系:
PLSA中的EM:
11、LDA
内容参考:
http://blog.csdn.net/mmc2015/article/details/45009759
http://blog.csdn.net/mmc2015/article/details/45010307
http://blog.csdn.net/mmc2015/article/details/45011027
http://blog.csdn.net/mmc2015/article/details/45024447
- 《textanalytics》课程简单总结(2):topic mining
- 《textanalytics》课程简单总结(4):课程总结
- 《textanalytics》课程简单总结(3):text clustering
- 《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic
- 《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续)
- Mining Massive Datasets课程笔记(一)
- Mining Massive Datasets课程笔记(二)
- Mining Massive Datasets课程笔记(三)
- Mining Massive Datasets课程笔记(四)推荐系统
- Mining Massive Datasets 课程笔记(四)降维
- Mining Massive Datasets课程笔记(五)聚类算法
- Mining Massive Datasets课程笔记(五)Web广告
- UVaLive 3530 - Martian Mining (简单DP)
- 中科院随机算法课程(孙晓明主讲)topic list
- C++课程学习简单总结
- SunShine课程2总结
- Topic 2
- 数据挖掘一些面试题总结(Data Mining)
- Core Python
- 关于Dialog
- Android:TextView属性大全
- 基本工具-选区的加加减减
- 关于各种文件用Editplus的方式打开出现“向程序发送命令时出现问题”的解决方法
- 《textanalytics》课程简单总结(2):topic mining
- codeforces 557 E Ann and Half-Palindrome
- http://dl-ssl.google.com/android上不去解决方案
- 亲戚
- 使用MediaPlayer播放音频
- Java多线程基础学习
- 股票学习11
- ubuntu下安装maven
- 贵族股份制与雇佣文官制