em 流程示例解释

来源:互联网 发布:紫峰抢单软件好用吗 编辑:程序博客网 时间:2024/05/23 19:56

 

1 极大似然估计:

已知两枚硬币, 每次等概率随机选择其中1枚掷10次, 正面记为H, 反面为T;

其中A被选中3次, B被选中2次; 每次的正反次数见图上半部分。

则可以估计A掷出正面的概率就是 total(A.H)/total(A) = 24/30=0.8,    同理可得B正面的概率是 0.45

 

问题很简单, 解答也很直观。

 

问题改变如下:

2 A,B总共掷了5次, 但不知道A被选中几次、哪次是A掷出来的,更不知道A掷出正面的概率; 也不知道B的这些信息。 如何求出A、B掷出正面的概率?

解答过程:

A、B掷出正面是相互独立的

1) 初始随机选择值: A.h=0.6, B.h=0.5

2) 对每次掷硬币过程(每个观测样本), 根据掷硬币结果计算此轮选中的硬币是A、B的概率。 以第一轮5正5反为例:

Sa/Sb = C(10, 5) * 0.6^5 * 0.4^5 / [C(10, 5) * 0.5^5 * 0.5^5]; 且Sa + Sb = 1。

所以Sa = 0.45, Sb = 0.55;  A掷出正面为5 * 0.45 = 2.2 次, 反面为5 * 0.45 = 2.2次。

 

同理对另外4次掷硬币过程, 也可得到选中A、B的概率以及A、B的正反面次数。

 

3) 重新估计A.h, B.h。 如何重新估计? 根据步骤2的结果中, A.h = total(A.H)/total(A) = 21.3/29.9 = 0.71, B.h = 0.58;

使用该值,从步骤2重新循环计算, 迭代。 直到两次迭代得到的A.h之差在阀值限制之内, 两次迭代得到的B.h之差在阀值之内

 

4) 迭代结束时得到A.h=0.8, B.h=0.52; 十分接近理想值【理想值无法得到】

over。

 

 

此示例中, 5次掷币过程称作Incomplete data(因为不知道每次掷币过程选择的到底是A还是B), 每次到底选择的是A还是B称作z,隐藏变量、潜在变量

 

杯具,业余选手, 各EM论文中对这些的描述都不一致, 让人头晕脑胀, 迷糊好几天

 

但是, 但是, 从此过程中没有看出E、M过程啊