机器学习之概率分布3

来源：互联网发布：炸群软件编辑：程序博客网时间：2024/06/07 07:17

机器学习-概率分布-高斯分布

接下来介绍最常用的高斯分布，对于一元变量x，其高斯分布形式为：

N (x | μ, σ 2) = 1 ( 2 π σ 2 ) 1 / 2 exp {- ( x - μ ) 2 2 σ 2}

其中，

μ表示均值，

σ2表示方差。

对于D维变量x，高斯分布的形式为：

N (x | u, Σ) = 1 ( 2 π ) D / 2 | Σ | 1 / 2 exp {- 1 2 (x - u) T Σ - 1 (x - u)}

高斯分布的参数估计同样也是采用最大似然估计的方法。设有N个样本服从该高斯分布 D={x1,x2,⋯,xN}。那么对数似然函数为：

ln p (D | u, Σ) = - N D 2 ln 2 π - N 2 ln | Σ | - 1 2 \sum n = 1 N (x n - u) T Σ - 1 (x n - u)

该对数函数对

u求导数并令其为0，可得：

0 u = = Σ - 1 \sum n = 1 N (x n - u) 1 N \sum n = 1 N x n

求

Σ的过程涉及到矩阵微分生成1。这里实际上是对

Σ−1求导

\partial \partial Σ - 1 ln | Σ | = - \partial \partial Σ - 1 ln | Σ - 1 | = - Σ T = - Σ (x n - u) T Σ - 1 (x n - u) = T r ((x n - u) (x n - u) T Σ - 1) \partial \partial Σ - 1 T r ((x n - u) (x n - u) T Σ - 1) = (x n - u) (x n - u) T

因此，

\partial \partial Σ - 1 ln p (D | u, Σ) = N 2 Σ - \sum n = 1 N (x n - u) (x n - u) T = 0 Σ = 1 N \sum n = 1 N (x n - u) (x n - u) T

因此，高斯分布的最大似然估计为：

u Σ = = 1 N \sum n = 1 N x n 1 N \sum n = 1 N (x n - u) (x n - u) T

用python来实现上述的参数估计过程，用scipy包中的multivariate_normal分布来生成样本，再根据这些样本估计高斯分布的参数。理论推导有点繁琐，但代码实现还是非常简单。我个人的建议，我们不仅仅要知道How,更要知道Why。理论的推导实际就是在追溯Why的过程。

代码

估计高斯分布的参数：

from scipy.stats import multivariate_normalimport numpy as npx=multivariate_normal.rvs(mean=[0.3,0.5],cov=[[1,0.5],[0.5,1]],size=10000);#从均值为[0.3,0.5],方差为[[1,0.5],[0.5,1]]的二元高斯分布中生成10000个样本N,d=x.shapemu = np.mean(x,axis=0)#求均值x1=x-np.tile(mu,(N,1))Sigma = np.matmul(x1.transpose(),x1)/N;print(mu)print(Sigma)

https://en.wikipedia.org/wiki/Matrix_calculus. ↩

阅读全文

0 0