正态分布

来源：互联网发布：原生js制作手风琴编辑：程序博客网时间：2024/04/29 21:00

正态分布也称常态分布或常态分配，是连续随机变量概率分．布的一种，是在数理统计的理论与实际应用中占有重要地位的一，种理论分布。自然界，人类社会，心理与教育中大量现象均按正·态形式分布。例如能力的高低，学生成绩的好坏，人们的社会态·度，行为表现以及身高、体重等身体状态。

正态分布是由阿伯拉罕·德莫弗尔(Abraham de Moivre)1733年发现的。其他几位学者如拉普拉斯(Marquis de Laplace)、高斯 (Carl Friedrich Gauss)对正态分布的研究也做出了贡献，故有时称正态分布为高斯分布。

一、正态分布的特征

(一)正态分布的函数(又称密度函数)为

(5—2)

式中π是圆周率3．14159．．．

e是自然对数的底2．71828…

x为随机变量取值一∞<x<∞

μ为理论的平均数

σ²为理论的方差

y为概率密度即正态分布上的纵坐标。

依上面的公式，当x＝μ时，上式可写作

y＝当σ＝1时

＝0．3989 在中央点的y最高，即y的最大值为0．3989。

正态分布的图形见下图5—1。

图5-1 正态分布的图形

(二)正态分布的形式是对称的(但对称的不一定是正态分布)，它的对称轴是过平均数点的垂线。正态分布中，平均数、中数、众数三者相等，此点y值最大(0．3989)。左右不同间距的y值不同，各相当间距的面积相等，y值也相等。

(三)正态分布的中央点(即平均数点)最高，然后逐渐向两侧下降，曲线的形式是先向内弯，然后向外弯，拐点位于正负 1个标准差处，曲线两端向靠近基线处无限延伸，但终不能与基线相交。

(四)正态曲线下的面积为1，由于它在平均数处左右对称，故过平均数点的垂线将正态曲线下的面积划分为相等的两部分，即，各为0.50。正态曲线下各对应的横坐标(即标准差)处与平均数之间的面积可用积分公式加以计算：

(5—3)

式中σ为标准差，，Z的大小随变量X的值而变。因正态曲线下每一横坐标所对应的面积与总面积(总面积为1)之比其值等于该部分面积值，故正态曲线下的每一面积可视为概率，即值为每一横坐标值(灭加减一定标准差)的随机变量出现的概率。

(五)正态分布是一族分布。它随随机变量的平均数，标准差的大小与单位不同而有不同的分布形态。如果平均数相同，标准差不同，这时标准差大的正态分布曲线形式低阔，如果标准差小，则正态曲线的形式高狭。

但所有的正态分布都可通过 (或 )容易地转换成标准正态分布。根据Z分数的性质(见第三章)亩知，标准正态分布的μ＝0，σ²=1。标准正态分布通常写作N(0，1)正态分布。从正态分布的密度函数可知，正态分布的两个重要的参：数是平均数和标准差。而标准正态分布这两个参数分别为0与1。

标准正态分布的密度函数可写作：

由此其密度函数及面积(或概率)的计算可大大简化。目前各种统计书后面都列有标准正态分布的统计表，它可应用于一切正态分布形式、使用简便，已不再需要每次去进行繁复的计算了。

(六)正态分布中各种差异量数的值皆有固定比率，这由于正态分布是对称的分布。

(七)在正态分布曲线下，标准差与概率(面积)有一定的数量关系。如：

正负一个标准差之间，包含总面积的68．26％；正负1．96个标准差之间，包含总面积的95％；正负2．58个标准差之间，包含总面积的99％。

知道了随机变量服从正态分布，就可比车贝雪夫定理(随机变量落在平均值附近的概率与标准差有一定的数量关系：概率至少＝1- 1/h² n>1为标准差的个数)提供更强有力的概率结论。

图5-3(1) 正态曲线下标准差与概率有一定的比率关系

二、次数分布是否正态的检验方法

在心理与教育的实际测量和实验中所获得的基本随机变量。有些具有正态分布的形式，有些则不具备，其中常见到一种正偏态分布，这种分布的右侧部分偏长左侧偏短，还有一种负偏态分布是左侧偏长而右侧偏短。(见图5—3(2))

有时为了统计分析的需要，常要分析次数分布是否为正态分布。对分布曲线是否为正态分布的拟合检验方法是χ²检验(见本书第十章第三节)，除此之外，还有一些简单的方法，帮助分析。这些方法有累加次数曲线法，偏态峰态量数的描述方法。

(一)皮尔逊偏态量数法

皮尔逊发现在偏态分布中平均数距中数较近而离众数较远。在正偏态中M>Md>M₀，在负偏态中M<Md<M₀，而在正态分布中三者合于一点。根据平均数与众数或中数的距离，提出一个偏态量数公式，用以描述分布形态；

SK = (M-M₀) / S (5—4)

或

SK = 3 (M-Md) / S (5—5)

式中S为标准差，SK为偏态量数，当SK＝0时，分布对称，当SK为正数时，分布属正偏态，当SK为负数时，分布属负偏态。

图5-3(2)

(二)峰度、偏度检验法

这种方法是根据分析分布的峰度系数与偏度系数，确定分布形态。一般情况下，需要观测数据的数目要足够大，应用这种方法才有意义。

偏度系数

(5—6)

当g₁＝0时分布是对称的，当g_l>0分布为正偏态，当g_l<0时，分布呈负偏态。当观测数据数目N>200时，这个偏态系数的·统计量g_l才较可靠。

峰度系数

(5—7)

当g₂＝0时，正态分布的峰度，g₂<0时，分布的峰度比正态分布的峰度低阔，g₂>0时，表明分布的峰度比正态分布的峰度高狭。当N>1000时，计算出的g₂统计量才较可靠。

三、正态分布理论在测验上的应用

对于被评量如属于正态分布的研究资料，欲将其更好地数量化，得到较为符合实际的数量化结果时，常用到以下一些方法。

(一)化等级评定为测量数据

(二)确定测验题目的难易度

(三)在能力分组或等级评定时确定人致。

(四)T分数或测验分数的正态化

0 0