LDA文本建模

来源:互联网 发布:vs2015 mysql 编辑:程序博客网 时间:2024/05/17 13:08
我们日常生活中会产生大量的文本,如果每一个文本存储为一个文档,那每篇文档从人的观察来说就是有序的词的序列。

统计文本建模的目的就是追问这些观察到语料库中的词序列是如何生成的。

我们将上述统计学问题看成上帝抛掷骰子生成的。那么出现两个核心的问题:
1.上帝都有什么样的骰子。即表示模型中都有哪些参数,骰子的每一面的概率都对应于模型中的参数。
2.上帝是如何抛掷这些骰子的。即表示游戏规则是什么,上帝会有不同类型的骰子,会按照一个什么样的方式来抛掷骰子产生词序列

LDA如下


0 0
原创粉丝点击