统计思维(实例4)——概率密度函数

来源:互联网 发布:java 管理系统 编辑:程序博客网 时间:2024/05/15 00:43

CDF的导数称为概率密度函数(Probability density function, PDF)。

PDF

在物理学上,密度是单位体积的重量。要计算质量,必须用密度乘以体积。

类似的,概率密度度量单位x的概率。为了计算概率,必须在x的取值范围上进行积分。

表示概率密度函数的Pdf类都提供如下方法:

  • Density 参数为值x,返回当前分布在x上的密度
  • Render 对一组离散值计算密度,返回一个数对序列,数对中包含值xs及其概率密度ds,序列按xs值排序。
  • MakePmf 对一组离散值计算Density返回标准化的Pmf,结果近似Pdf。
  • GetLinspace 返回Render和MakePmf默认使用的点集。

Pdf是一个抽象的父类,不能实例化。需要定义一个继承Pdf的子类,并提供Density和GetLinspace的定义。如NormalPdf类:

class NormalPdf(Pdf):        def __init__(self, mu=0, sigma=1, label=''):        self.mu = mu        self.sigma = sigma        self.label = label            def Density(self, xs):        return scipy.stats.norm.pdf(xs, self.mu, self.sigma)            def GetLinspace(self):        low, high = self.mu-3*self.sigma, self.mu+3*self.sigma        return np.linspace(low, high, 101)

下面以上章的成年女性身高(单位为厘米)的均值和方差为参数,创建一个NormalPdf对象,然后计算这个分布在距均值一个标准差处的密度。

mean, var = 163, 52.8std = math.sqrt(var)pdf = NormalPdf(mean, std)pdf.Density(mean + std)

概率密度自身并没有太多含义,但如果绘制Pdf,就能看出分布的形状。下图展示美国成年女性身高的正态PDF。


图1 对美国成年女性身高进行建模得到的正态PDF,以及样本量n为500的核密度估计

核密度估计

核密度估计(Kernel density estimation, KDE)是一种算法,可以对一个样本寻找符合样本数据的适当平滑的PDF。

KDE估计密度函数可用于如下用途:

  • 可视化 在项目的探索阶段,展现分布的最佳方法通常是CDF。在观察CDF之后,可以判断估计PDF是否为该分布的适宜模型。
  • 插值 通过估计PDF,可以从样本得到总体模型
  • 模拟 模拟通常是基于一个样本分布。

分布框架及实现

到目前为止,我们学习了PMF、CDF和PDF。下图展示了这些函数之间的关系。


图2 分布函数的关系框架

我们最先接触的是PMF,PMF代表的是一组离散值的概率。要从PMF到CDF,需要把概率值累加得到累积概率。反过来,要从CDF得到PMF,需要计算累积概率之间的差值。

PDF是连续型CDF的导数,或者说,CDF是PDF的积分。PDF将值映射到概率密度,要得到概率,必须进行积分运算。

平滑处理的逆向操作是离散化(discretizing),或称为量化(quantizing)。如果在离散点上计算PDF,就可以生成近似这个PDF的PMF。

Hist和Pmf继承了一个父类_DictWrapper,_DictWrapper是一个字典封装类,其主要属性是将值映射到相关频次的字典d。Hist的操作符和方法都是基于字典的,因此这些方法都是常数时间操作。

Pmf和Hist基本类似,唯一的区别是Pmf将值映射到浮点数的概率值,而不是整数的频次。如果一个Pmf的概率总和是1,那么这个Pmf就是正态化的。

CDF将值映射到累积概率,且CDF中的值是按序排列的,而_DictWrapper中的值是乱序的。如果向Cdf构造函数传入两个参数,那么构造函数会将这两个参数当作一个已排序的值序列及其对应的累积函数序列。

原始矩(raw moment)也是一个统计量,对于一组值为x_ixi的样本,第k个原始矩计算公式为:


当k=1时,原始矩为样本的均值\overline xx

中心矩(central moment)的用途较多,第k个中心矩的计算公式为:

在使用基于矩的统计量时,很重要的一点是考虑统计量的单位。如值x_ixi的单位是厘米,那么第一原始矩的单位也是厘米,第二原始矩的单位是平方厘米,第三原始矩的单位是立方厘米,以此类推。

偏度

偏度(skewness)是描述分布形状的一个属性。如果分布是以集中趋势为中心对称的,那么这个分布就非偏斜的(unskewed)。如果分布中的值向右延伸更多,那么这个分布就是“右偏”的;如果值向左延伸更多,那么这个分布就是“左偏”的。

“偏度”(Skewed)并不是通常所说的“有偏”(biased)的含义,偏度只是描述了分布的形状,和采样过程是否有偏并无关系。偏度为负值代表一个分布左偏,偏度为正值代表一个分布有偏。

衡量分布对称性的另一个方法是检查均值和中位数的关系。极端值对均值的影响比对中位数影响更大,因此在一个左偏分布中,均值会比中位数小;在右偏分布中,均值则比中位数大。

Pearson中位数偏度系数(Pearson's median skewness coefficient)是基于样本均值和中位数差的一种偏度度量。

其中\overline xx是样本均值,m是中位数,S是标准差。

举例看看全国家庭增长调查妊娠数据中的新生儿体重的偏度。样本偏度为-0.59,Pearson中位数偏度系数为-0.23。


图3 全国家庭增长调查新生儿体重数据的估计PDF

估计和绘制BRFSS成人体重的PDF如下图,图中的分布看起来向右偏斜,其样本偏度为1.1,Pearson中位数偏度系数为0.26。


图4 BRFSS成人体重数据的估计PDF

偏度系数为正或为负说明了分布左偏或右偏,但除此之外,我们很难对偏度系数作出更多解释。样本偏度的稳健性较差,即更容易受到离群值的影响。

Pearson中位数偏度系数基于计算所得的均值和方差,因此也会受到离群值影响,但这个系数不依赖第三矩,因此稳健性稍好一些。


参考文献:

    统计思维. Allen B.Downey. 金迎 译


阅读全文
0 0
原创粉丝点击