主题模型简述

来源:互联网 发布:文斯莫克家族知乎 编辑:程序博客网 时间:2024/05/17 00:14

         由于之前聚类的方式,并不能保证主题的挖掘,所以打算试试主题模型,但是一看就是数据公式,没办法了,只能从头再过一遍。


         贝叶斯公式:P(A|B) = (P(B|A)*P(A)) / P(B) 或者 P(Ai | B) = (P(B|Ai) * P(Ai)) / 求和P(B|Ai) * P(Ai)。我的理解是,在B出现的前提下A出现的概率,可以表现为,任何情况下B出现的概率(P(B) = 求和P(B|Ai) * P(Ai))作为总体,即分母,而分子表现为 A(Ai)出现了的条件下B出现了,通俗的讲就是有那么多可能的条件下会出现B,等式右边的结果就

是偏偏B出现在 Ai 发生的前提下。那么B有那么多种可能会出现,而B刚好出现在A出现的时候,就是指 A 在B条件下的概率咯。(个人理解,如有误请指导)


         极大似然估计:

               比如我们丢硬币,有正反两种情况,一共丢10次的话,假设我们知道某种方法来丢能够保证正面概率0.6(参数a),显然反而则为0.4。那么丢10次中能够正面k次的概率可

    通过此公式计算:f(k, a = 0.6) = C(k, 10) * 0.6^k * 0.4 ^(10-k),不知道公式怎么编辑,C(k,10)表示组合10选k的意思。k可能的取值为0~10,但是对应的f(k)最大的应该是最可能

    出现的结果。此时,如果我们反过来,知道了 k 的值,比如为7(一共扔了下面7次,反面3次),该如何求取参数 a 呢,现在 k 已经,那么,概率计算公式中的已经变量和未知变

    量位置就换了:f(k = 7, a) = C(7, 10) * a^7 * (1-a)^3,对于a 的可能取值a1, a2而言,如果a = a1 相对于a2而言,使得f(k=7,a)的值更大,即概率更高,那么显然应该取a1,因为

    7这个k的取值在实验中真实出现了,那么k = 7的可能性应该是较大的,即函数 f(k,a)的值是较大的,所以 a 的取值为使得 f(k=7, a)取值最大时的值。

             现在就比较好做了,通过求导即可,取使得导数为0时,a的取值即为所求。如果是多维参数则通过求偏导解决。由于实际情况下求导可能导致计算式更加复杂,比如上式

    求导之后还有a^9的存在,又由于对数函数的单调增特性,使得 ln(f(k,a)) 与 f(k,a)在同样的位置取得最大值,因此很多情况下先进行对数函数转换再求导。

            以下()内容来自:/yanqingan/article/details/6125812。(最大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

        未完待续。。。

            

0 0