主题模型简述

来源：互联网发布：文斯莫克家族知乎编辑：程序博客网时间：2024/05/17 00:14

由于之前聚类的方式，并不能保证主题的挖掘，所以打算试试主题模型，但是一看就是数据公式，没办法了，只能从头再过一遍。

是偏偏B出现在 Ai 发生的前提下。那么B有那么多种可能会出现，而B刚好出现在A出现的时候，就是指 A 在B条件下的概率咯。（个人理解，如有误请指导）

极大似然估计：

比如我们丢硬币，有正反两种情况，一共丢10次的话，假设我们知道某种方法来丢能够保证正面概率0.6(参数a)，显然反而则为0.4。那么丢10次中能够正面k次的概率可

通过此公式计算：f(k, a = 0.6) = C(k, 10) * 0.6^k * 0.4 ^(10-k)，不知道公式怎么编辑，C(k,10)表示组合10选k的意思。k可能的取值为0~10，但是对应的f(k)最大的应该是最可能

出现的结果。此时，如果我们反过来，知道了 k 的值，比如为7(一共扔了下面7次，反面3次)，该如何求取参数 a 呢，现在 k 已经，那么，概率计算公式中的已经变量和未知变

量位置就换了：f(k = 7, a) = C(7, 10) * a^7 * (1-a)^3，对于a 的可能取值a1, a2而言，如果a = a1 相对于a2而言，使得f(k=7,a)的值更大，即概率更高，那么显然应该取a1，因为

7这个k的取值在实验中真实出现了，那么k = 7的可能性应该是较大的，即函数 f(k,a)的值是较大的，所以 a 的取值为使得 f(k=7, a)取值最大时的值。

现在就比较好做了，通过求导即可，取使得导数为0时，a的取值即为所求。如果是多维参数则通过求偏导解决。由于实际情况下求导可能导致计算式更加复杂，比如上式

求导之后还有a^9的存在，又由于对数函数的单调增特性，使得 ln(f(k,a)) 与 f(k,a)在同样的位置取得最大值，因此很多情况下先进行对数函数转换再求导。

以下（）内容来自：/yanqingan/article/details/6125812。（最大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。）

未完待续。。。

0 0