LDA学习笔记1——预备

来源:互联网 发布:打印机端口怎么设置 编辑:程序博客网 时间:2024/05/08 08:53
作者简介
David M. Blei :LDA之父,普林斯顿计算机科学系,本文发表时为加州大学伯克利分校学者。
Andrew Y. Ng:中文名吴恩达,美籍华裔,斯坦福大学计算机科学系和电子工程系,人工智能和机器学习领域国际上最权威的学者之一,在线教育平台Coursera的联合创始人。
Michael I. Jordan:加州大学伯克利分校计算机科学部,人工智能领域专家。

发表在Journal of Machine Learning Research 2003上。

对于文本语料以及离散数据的建模(在当时2003年)还是一个比较突出的问题。在这之前,TF、TF-IDF方法已经被广泛应用,但是仍然不能很好地解决文本用词汇的向量空间表示带来的稀疏性问题以及词汇向量空间带来的维度灾难。同时,随着文本分类、文本摘要、事件检测等相关研究应用的深入推进,对于文本特征建模的高精度、高效的需求越来越强烈。


基于Finetti等人[1]的研究表明,任何可交换的随机变量能够表示成一个混合分布。
而对于文档集合中的每一个文档、对于一个文档中的每一个词汇,如果采用“词bag”的思想,即考虑它们的无序性,则可以根据上述的结论,将文档视为一个概率分布,将词汇视为一个概率分布。
由此,引出了基于概率的主题模型LDA。

之前的在文本(主题)建模方面相关方法的缺点
TF-IDF:
  1. 词汇空间的降维程度极小
  2. 不能挖掘文档之间、词汇之间的内在的或是外在的联系
LSA:
  1. 使用场景不明确:LSA方法可被极大似然估计等贝叶斯方法替换
  2. 其潜在语义由词汇之间的线性组合构成,没有物理意义
  3. 大矩阵的SVD分解将会成为瓶颈
PLSA:
  1. 文档-主题之间不存在概率分布,脱离了训练集时,无法为文档正确地分配主题分布
  2. 随着语料的增长,参数的数量是一个线性增长的方式,出现过度拟合(Overfitting)

Dirichlet分布
Dirichlet分布是B分布在多维度上的拓展。设变量维度为k
变量为:

参数为:

则其概率密度函数为

概率密度函数特点:
定义域为实数域 R
值域为 (0, 1)
函数为偶函数
不连续、不可导

不同α下的Dirichlet概率密度函数曲线





[1] Diaconis P. Recent progress on de Finetti’s notions of exchangeability[J]. Bayesian statistics, 1988, 3: 111-125.



0 0
原创粉丝点击