统计学 学习笔记 (二)—— 掌握数据的整体状态 数据的集中趋势

来源:互联网 发布:网站推广软件 编辑:程序博客网 时间:2024/04/29 06:27

掌握数据的整体状态

    如果只是看到一堆数据,杂乱无章地排在一起,人很难看出它们到底反应了什么信息。而各种数据分析技术的发展,却要求我们在分析之前就能对数据从整体上尽可能把握特性,从而为后面的分析方法的选择及分析结果的理解提供可靠的依据。
    统计学中对于一组数据的整体状态,提供了多方位多角度的衡量指标。从数值的角度,可以从两个方面进行描述:数据的集中趋势(central tendency),数据的变异性(variability)。从图示的角度,可以通过数据组的频数分布(frequency distribution)及直方图来形象地描绘数据组内数值的分布状态。

 

数据的集中趋势

    数据的集中趋势很好理解,通俗地说,就是看看这组数据大概讲什么的。比如对于图2中的age数据,一眼看去,都在50以上,大概能够猜到这组数据主要讲的是老年人。但具体如何,在数据量大的情况下,就需要有一些确切的指标来表明其整体状态。这些指标最常见的就是均值(算术均值)、中值和众数;另外在医学统计学中,也经常会用到几何均值。

图2:年龄数据示例

    均值(算术均值,mean,arithmetic mean):数据组中所有数值的总和除以该组数值的个数。指的就是数值的中间点。

    均值作为数据的集中趋势量数在统计学中受关注最多,这儿也详细列举了一些均值的重要特性 [Arithmetic_mean, http://en.wikipedia.org/wiki/Arithmetic_mean]:
•    将数据组中每个数值减去均值后的结果相加,和等于0。可以把某个数值减去均值的结果看作是这个数值到均值的距离。
•    均值是最能反映数据的集中趋势的单一指标,如果考虑到均值可以使每个数值减去均值后的平方和最小这个情况。
•    对于正态分布来说,其均值与中值和众数相等。
•    均值对极值很敏感。当极值比较大的时候,会使得均值对数据组集中趋势量数的代表性减弱。
    中值(median):数据组中所有数值的中点。数值个数的中间点(见图3[median, http://betterexplained.com/articles/how-to-analyze-data-using-the-average/])。中值对极值不敏感。当数据组中存在一个或多个极值的时候,相比均值,中值能够更好地反映数据组的集中趋势量数。

 

图3:中值示意


    众数(mode):出现次数最多的数值。见图4[mode, http://betterexplained.com/articles/how-to-analyze-data-using-the-average/]。

图4:众数示意


    几何均值(几何均数,geometric mean):将所有数值相乘后取数值数目的开方。

 

    这个计算方法当数值数目>3后会很难计算,因此将它转换为对数形式,也就是先将所有数值进行(自然)对数转换,然后计算这些转换后的对数值的算术均值,然后再取反对数。从这个计算方法可以看出,几何均值和均值最大的不同就是对数值取了对数。增加了计算量,又有什么好处呢?前面我们说到,均值对极值很敏感。但取对数却可以很好地平衡这种极值,因此几何均值就会对一些有极值的、偏态的数据组能很好地反映其集中趋势。比如在衡量某种传染病的潜伏期或血中某种抗体的滴度时就常用几何均值表示它们的平均水平[医用统计方法,3.1]。

     指标很多,各有各的用处。下面就总结一下它们各自擅长的地方:
•    如果数据是序列型、字符型或布尔型,无法计算其均值和中值,则使用众数作为集中趋势的量数。
•    如果数据是数值型且没有极值,则可以使用均值反映集中趋势。
•    如果数据是数值型,但包含极值,或分布比较偏态,则可以使用中值或几何均值。
    文章[How To Analyze Data Using the Average, http://betterexplained.com/articles/how-to-analyze-data-using-the-average/]中还有一些对于集中趋势量数的叙述,有兴趣的同志可以看看。另外,对于具体的行业和应用,对用什么指标总有一些惯例或规定。但上面的规律对于大部分统计学应用场景来说都是适用的。

原创粉丝点击