LDA学习笔记1——预备

来源：互联网发布：打印机端口怎么设置编辑：程序博客网时间：2024/05/08 08:53

作者简介

David M. Blei ：LDA之父，普林斯顿计算机科学系，本文发表时为加州大学伯克利分校学者。

Andrew Y. Ng：中文名吴恩达，美籍华裔，斯坦福大学计算机科学系和电子工程系，人工智能和机器学习领域国际上最权威的学者之一，在线教育平台Coursera的联合创始人。

Michael I. Jordan：加州大学伯克利分校计算机科学部，人工智能领域专家。

发表在Journal of Machine Learning Research 2003上。

对于文本语料以及离散数据的建模（在当时2003年）还是一个比较突出的问题。在这之前，TF、TF-IDF方法已经被广泛应用，但是仍然不能很好地解决文本用词汇的向量空间表示带来的稀疏性问题以及词汇向量空间带来的维度灾难。同时，随着文本分类、文本摘要、事件检测等相关研究应用的深入推进，对于文本特征建模的高精度、高效的需求越来越强烈。

基于Finetti等人[1]的研究表明，任何可交换的随机变量能够表示成一个混合分布。

而对于文档集合中的每一个文档、对于一个文档中的每一个词汇，如果采用“词bag”的思想，即考虑它们的无序性，则可以根据上述的结论，将文档视为一个概率分布，将词汇视为一个概率分布。

由此，引出了基于概率的主题模型LDA。

之前的在文本（主题）建模方面相关方法的缺点

TF-IDF：