深度学习中的最大似然估计简介

来源：互联网发布：橙e付网络编辑：程序博客网时间：2024/06/13 18:53

统计领域为我们提供了很多工具来实现机器学习目标，不仅可以解决训练集上的任务，还可以泛化。例如参数估计、偏差和方差，对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。

点估计：点估计试图为一些感兴趣的量提供单个”最优”预测。一般地，感兴趣的量可以是单个参数，或是某些参数模型中的一个向量参数，但是也有可能是整个函数。点估计也可以指输入和目标变量之间关系的估计。我们将这种类型的点估计称为函数估计。

函数估计：有时我们会关注函数估计(或函数近似)。这时我们试图从输入向量x预测变量y。我们假设有一个函数f(x)表示y和x之间的近似关系。例如，我们可能假设y=f(x)+ε,其中ε是y中未能从x预测的一部分。在函数估计中，我们感兴趣的是用模型估计去近似f。

偏差：估计的偏差被定义为：

均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布，我们可以用标准差计算出真实期望落在选定区间的概率。

权衡偏差和方差以最小化均方误差：偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望。而方差度量着数据上任意特定采样可能导致的估计期望的偏差。

均方误差(mean squared error, MSE)：

MSE度量着估计和真实参数θ之间平方误差的总体期望偏差。MSE估计包含了偏差和方差。偏差和方差的关系和机器学习容量、欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差(偏差和方差对于泛化误差都是有意义的)时，增加容量会增加方差，降低偏差。

一致性：一致性保证了估计量的偏差会随数据样本数目的增多而减少。然而，反过来是不正确的。

考虑一组含有m个样本的数据集X={x⁽¹⁾,…,x^(m)},独立地由未知的真实数据生成分布p_data(x)生成。令p_model(x;θ)是一族由θ确定在相同空间上的概率分布。换言之，p_model(x; θ)将任意输入x映射到实数来估计真实概率p_data(x)。

对θ的最大似然估计被定义为：

最大似然估计最吸引人的地方在于，它被证明当样本数目m→∞时，就收敛率而言是最好的渐进估计。

在合适的条件下，最大似然估计具有一致性，意味着训练样本数目趋向于无穷大时，参数的最大似然估计会收敛到参数的真实值。这些条件是：

(1)、真实分布p_data必须在模型族p_model(•;θ)中。否则，没有估计可以还原p_data.

(2)、真实分布p_data必须刚好对应一个θ值。否则，最大似然估计恢复出真实分布p_data后，也不能决定数据生成过程使用哪个θ。

在统计学中，最大似然估计(Maximum likelihood estimation, MLE)，也称为最大概似估计，是用来估计一个概率模型(概率模型是用来描述不同随机变量之间关系的数学模型，通常情况下刻画了一个或多个随机变量之间的相互非确定性的概率关系)的参数的一种方法。

最大似然估计的原理：给定一个概率分布D，已知其概率密度函数(连续分布)或概率质量函数(离散分布)为f_D,以及一个分布参数θ，我们可以从这个分布中抽出一个具有n个值的采样X₁,X₂,…,X_n，利用f_D计算出概率：P(x₁,x₂,…,x_n)=f_D(x₁,…,x_n|θ)。

但是，我们可能不知道θ的值，尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢？一个自然的想法是从这个分布中抽出一个具有n个值的采样X₁,X₂,…,X_n，然后用这些采样数据来估计θ。

一旦我们获得X₁,X₂,…,X_n,我们就能求得一个关于θ的估计。最大似然估计会寻找关于θ的最可能的值(即，在所有可能的θ取值中，寻找一个值使这个采样的”可能性”最大化)。

要在数学上实现最大似然估计法，我们首先要定义似然函数：lik(θ)= f_D(x₁,…,x_n|θ)，并且在θ的所有取值上通过令一阶导数等于零，使这个函数取得最大值。这个使可能性最大的θ’值即称为θ的最大似然估计。

注意：这里的似然函数是指x₁,…,x_n不变时，关于θ的一个函数；最大似然估计函数不一定是惟一的，甚至不一定存在。

以上内容主要摘自：《深度学习中文版》和维基百科

GitHub：https://github.com/fengbingchun/NN_Test

阅读全文

0 0