《Parameter estimation for text analysis》阅读笔记

来源：互联网发布：服务器域名怎么看编辑：程序博客网时间：2024/05/23 19:17

《Parameter estimation for text analysis》阅读笔记

参数估计方法

面临两种推理问题：（1）评估可以最好解释一组观测值X分布的参数值组ϑ；（2）给定之前的观测值，计算新的观测值x^的概率p(x^|X)。前者为估计问题，后者为预测或回归问题。

极大似然估计（MLE）
找到最大化概率的参数：L(ϑ|X)=p(X|ϑ)=Πx∈Xp(x|ϑ)。
最大后验估计（MAP）
最大化参数的后验概率：ϑ^MAP=argmaxϑp(ϑ|X)
贝叶斯推理
贝叶斯推理扩展了MAP方法，允许参数集ϑ上的一个分布，而不是直接估计。

共轭分布

一个共轭先验p(ϑ)，概率p(x|ϑ)，引出后验分布p(ϑ|x)，p(ϑ|x)和先验有相同的形式，并引入一个观测量x参数化。

贝叶斯网络和生成过程

贝叶斯网络（BNs）是一个正式的图语言，在随机变量和有向图中它们在条件依赖性方面表达系统或现象的共同分布。BNs是图模型的一个特例，机器学习的一个重要方法，也包含无向图模型（马尔科夫随机场）和混合模型。一个贝叶斯网络形成一个有向无环图（DAG），点对应随机变量，边对应条件随机分布，边起点的条件变量叫父节点，边终点的依赖变量叫孩子节点。贝叶斯网络间区分证据节点和隐藏节点。证据节点对应观察或假定观察变量，隐藏节点对应潜在变量。许多模型中，存在共享父节点或孩子节点的节点重复来代表多变量或混合成分。这样的重复可以通过板块表示，围绕节点子集，右下角有一个重复数或变量集合描述。

潜在狄利克雷分布（LDA）

LDA是一个概率产生模型，通过非监督学习可以用于估计多项式观测值的属性。至于文本建模，LDA是进行所谓的隐性语义分析（LSA）的方法。LSA背后的直观思想是找到文本语料话题或概念的潜在结构，获取被词汇选择噪声掩盖的文本含义。LDA是一个混合模型，它使用一组成分分布的凸组合建模观测值。凸组合是加权和，权重系数和为1。LDA中，单词w从一个话题z的凸组合产生。
Gibbs采样是马尔科夫链蒙特卡罗法（MCMC）模拟的一个特例，在高维模型如LDA经常产生近似推理的相对简单算法。MCMC方法通过马尔科夫链的静态行为可以模拟高维概率分布p(x⃗ )。这意味着，到达链的一个静止状态后，为转换产生一个样本。这发生在所谓的“burn-in”阶段，排除初始化参数的影响。
积分掉一些参数来进行模型推理的策略常常被称为“collapsed”。
Gibbs采样算法：（1）选择维度i（随机或者通过置换）；（2）从p(xi|x⃗ ¬i)采样xi。Gibbs采样运行3个阶段：初始化，“burn-in”阶段和采样。然而，为了决定“burn-in”阶段的长度是MCMC方法的缺点。为了从Gibbs采样器获得结果模型参数，存在几个方法。一是只使用一个读出，二是平均许多样本。通常在子序列读出间隔L次迭代来获得不相互关联的状态是合适的。这一间隔通常叫做“thinning interval”或者sampling lag。
狄利克雷超参在多项式分布中通常存在平滑效应。通过降低α和β的值，减少LDA中的平滑效应，这将带来更加决定性的主题关联，Θ和Φ将变得更加稀疏。Φ的稀疏性由β控制，意味着模型更喜欢给每个主题分配少一些的词项，这将影响模型的主题数。Θ的稀疏由α控制，意味着模型更喜欢用少一些主题描述文档。α的估计是文档在它们的（隐性）语义方面不同程度的指标，β的估计表明普遍共现词组的大小。事实上，学习狄利克雷参数的最好方法将是使用（collapsed）Gibbs采样器已经可用的信息，如：主题相关的计数统计信息而不是积分掉的多项式参数Θ和Φ。

查询

主题模型提供了至少两个方法来检索与查询文档相似的文档：（1）通过文档参数的相似度分析；（2）通过预测的文档概率。两个方法依赖于查询文档的主题评估。

0 0