text mining and analytics学习笔记week2

来源：互联网发布：洛阳智网网络和恒凯编辑：程序博客网时间：2024/05/29 05:56

一、组合关系探索熵函数
这里写图片描述

确定x随机性的熵函数 coin tossing抛硬币
熵在这里是表示一个事件发生的概率的离散程度，因为the在很多文档中的出现频率都非常高，所以它的熵会比一些词如meat等的熵要小。

二、组合关系探索条件熵
1. 条件熵 0<=H(X|Y)<=H(X)
这里写图片描述

H(meat|meat)=0
“the”的出现对是否有meat并无多大影响，所以对于减小meat的熵值也没什么作用，H(Xmeat|Xthe)会很接近于meat原本的熵值，而eat和meat有关，eat能帮助减小meat的熵值，所有H(Xmeat|Xthe)会比H(Xmeat|Xeat)大。
后者的熵不可比较是因为w1和w3的外部约束条件可能会不同

三、组合关系探索和交互信息
1. 交互信息：有时可以用来标准化条件熵，以便条件熵可以对不同配对的X和Y进行对比
2. 交互信息的特点：非负；对称性 I(X;Y)=I(Y;X);当且仅当随机变量X和Y完全独立时，I(X;Y)达到最小值0，这意味着已知一个并不能告诉我们另一个的消息
这里写图片描述

一个词与它自己的交互信息是最大的，等于这个词的熵
交互信息的计算：KL发散，发散越大，交互信息的值越高
分子表示实际观测到的两个随机变量的联合分布，分母为理想的两个联合分布，如果分子分母的值是相等的，则两个变量是完全独立的，否则则说明两个变量间可以帮助度量关联。
利用最大似然估计来计算概率，即对事件发生的次数作归一化。
当count(w1）为0时，我们又不希望概率为0，此时就需要对其作平滑化处理，即计数时加上一个很小的常量。
如下图右边的四个假设段，每一个的权重都是1/4，而w1出现了两次，所以+0.5，以此类推可以得到w1和w2同时出现就+0.25 。因为4个假设片段加起来为1，所以相应的总数N也要加1.

四、主题挖掘分析
1. 任务：从一系文本中找出k个主题，然后再看哪篇文章多大程度上涵盖了哪些主题
2. 用术语代表一个主题
这里写图片描述
3. 用单词划分来表示一个主题
使用了很多相关词，所以能描述较复杂的主题；能量化术语，模型化语义差异，于是可以在模式化一个主题时引入相关词汇；因为我们可以用概率指代不同主题中的同一词汇，从而分离语感，在文本中解码隐藏主题
这里写图片描述

4. 统计语言一元模型概述

5. 最大似然估计与贝叶斯先验

5.1. 在极大似然估计中，我们将最优值定义为数据似然值达到最大。不过当样本集合很小的时候，如果我们完全依赖于已有数据，并且试图使估计拟合这些数据则会出现偏差。
5.2. 而贝叶斯估计中，用p(X)表示对于x的先验信念，即在关注到其他数据前，已经对x有了belief，我们相信x取某些值的概率比其他值高。p(X|Y)关于X的后验概率，即观察了Y后对X值分布的信念。p(Y|X)即对于特定的X观察到的证据Y的概率。
可以将贝叶斯理解为，将x看成一个假设，我们对这假设原本有一些想法，然后通过观察y后，我们将修正我们的信念。修正信念的公式基于先验和x确实为真的条件下观察到的y的可能性的组合。
图上这条关于theta的公式中，p(theta)表示参数先验值，而p(x|thete)则为确定怎样的参数值能恰当解释数据，从而寻求最大化后验数据后的theta值，这种估计方法称为最大后验估计，又称MAP估计。
这种方法比几大似然估计实用，因为如果我们定义的先验不包括任何信息，则以为着所有theta值的均匀分布没有偏向，这种情况下将回归到极大似然估计上，因为最终影响值的确定取决于p(x|theta)；而如果先验包含有信息，则对于不同值的偏向不同，此时就需要MAP。
5.3.
这里写图片描述
prior mode ：先验众数 MLestimate：极大似然的最大概率
posterior: 后验众数
6. 只从一个文档中挖掘一个主题

因为假设单词都是独立的，所以文档的概率就是每个单词的概率的积。因为某些单词存在重复，所以可以把第一行的公式改为第二行。其中c(w,d)表示w这个词在d文档中出现的次数。