text mining and analytics学习笔记week2

来源:互联网 发布:洛阳智网网络和恒凯 编辑:程序博客网 时间:2024/05/29 05:56

一、组合关系探索 熵函数
这里写图片描述

  1. 确定x随机性的熵函数 coin tossing抛硬币
    熵在这里是表示一个事件发生的概率的离散程度,因为the在很多文档中的出现频率都非常高,所以它的熵会比一些词如meat等的熵要小。
    这里写图片描述

二、组合关系探索 条件熵
1. 条件熵 0<=H(X|Y)<=H(X)
这里写图片描述
这里写图片描述

  1. H(meat|meat)=0
    “the”的出现对是否有meat并无多大影响,所以对于减小meat的熵值也没什么作用,H(Xmeat|Xthe)会很接近于meat原本的熵值, 而eat和meat有关,eat能帮助减小meat的熵值,所有H(Xmeat|Xthe)会比H(Xmeat|Xeat)大。
    这里写图片描述

  2. 后者的熵不可比较是因为w1和w3的外部约束条件可能会不同
    这里写图片描述

三、组合关系探索和交互信息
1. 交互信息:有时可以用来标准化条件熵,以便条件熵可以对不同配对的X和Y进行对比
2. 交互信息的特点:非负;对称性 I(X;Y)=I(Y;X);当且仅当随机变量X和Y完全独立时,I(X;Y)达到最小值0,这意味着已知一个并不能告诉我们另一个的消息
这里写图片描述

  1. 一个词与它自己的交互信息是最大的,等于这个词的熵
    这里写图片描述

  2. 交互信息的计算:KL发散,发散越大,交互信息的值越高
    分子表示实际观测到的两个随机变量的联合分布,分母为理想的两个联合分布,如果分子分母的值是相等的,则两个变量是完全独立的,否则则说明两个变量间可以帮助度量关联。
    这里写图片描述

  3. 利用最大似然估计来计算概率,即对事件发生的次数作归一化。
    这里写图片描述

  4. 当count(w1)为0时,我们又不希望概率为0,此时就需要对其作平滑化处理,即计数时加上一个很小的常量。
    如下图右边的四个假设段,每一个的权重都是1/4,而w1出现了两次,所以+0.5,以此类推可以得到w1和w2同时出现就+0.25 。因为4个假设片段加起来为1,所以相应的总数N也要加1.
    这里写图片描述

四、主题挖掘分析
1. 任务:从一系文本中找出k个主题,然后再看哪篇文章多大程度上涵盖了哪些主题
2. 用术语代表一个主题
这里写图片描述
3. 用单词划分来表示一个主题
使用了很多相关词,所以能描述较复杂的主题;能量化术语,模型化语义差异,于是可以在模式化一个主题时引入相关词汇;因为我们可以用概率指代不同主题中的同一词汇,从而分离语感,在文本中解码隐藏主题
这里写图片描述
这里写图片描述
这里写图片描述
4. 统计语言一元模型概述
这里写图片描述
这里写图片描述
这里写图片描述
5. 最大似然估计与贝叶斯先验
这里写图片描述
5.1. 在极大似然估计中,我们将最优值定义为数据似然值达到最大。不过当样本集合很小的时候,如果我们完全依赖于已有数据,并且试图使估计拟合这些数据则会出现偏差。
5.2. 而贝叶斯估计中,用p(X)表示对于x的先验信念,即在关注到其他数据前,已经对x有了belief,我们相信x取某些值的概率比其他值高。p(X|Y)关于X的后验概率,即观察了Y后对X值分布的信念。p(Y|X)即对于特定的X观察到的证据Y的概率。
可以将贝叶斯理解为,将x看成一个假设,我们对这假设原本有一些想法,然后通过观察y后,我们将修正我们的信念。修正信念的公式基于先验和x确实为真的条件下观察到的y的可能性的组合。
图上这条关于theta的公式中,p(theta)表示参数先验值,而p(x|thete)则为确定怎样的参数值能恰当解释数据,从而寻求最大化后验数据后的theta值,这种估计方法称为最大后验估计,又称MAP估计。
这种方法比几大似然估计实用,因为如果我们定义的先验不包括任何信息,则以为着所有theta值的均匀分布没有偏向,这种情况下将回归到极大似然估计上,因为最终影响值的确定取决于p(x|theta);而如果先验包含有信息,则对于不同值的偏向不同,此时就需要MAP。
5.3.
这里写图片描述
prior mode :先验众数 MLestimate:极大似然的最大概率
posterior: 后验众数
6. 只从一个文档中挖掘一个主题
这里写图片描述
因为假设单词都是独立的,所以文档的概率就是每个单词的概率的积。因为某些单词存在重复,所以可以把第一行的公式改为第二行。其中c(w,d)表示w这个词在d文档中出现的次数。

这里写图片描述
拉格朗日法求得的theta i的最优解为通过文本长度正则化后的计数值,文本长度也是文本中的单词数

测验
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

什么是熵?对于什么样的随机变量,熵函数会达到它的最大值和最小值?
答:熵可以理解为是一个事件发生的不确定性,当一个词出现的次数多时,其概率就高,这种不确定性就会小。

原创粉丝点击