(三)描述统计学:数值方法

来源:互联网 发布:网络机顶盒无线连接 编辑:程序博客网 时间:2024/05/16 15:03
数值方法主要涉及利用数据来描述统计数据的位置、离散程度、形态和相关程度。




当数据中有异常值时,使用中位数作为中心位置的度量比平均数更合适。

有时,在有异常值的情况下,我们使用另外一种度量方法——调整平均数(trimmed mean)。 删除数据中最大的和最小的一些数据,然后对剩下的数据求平均值,得到的就是调整平均数。



总体方差与样本方差的区别值得一提,首先给出两者的定义


样本方差的期望等于总体方差,故样本方差是总体方差的无偏估计(证明如下,对证明不感兴趣的可直接跳过)







直方图对数据的分布形态提供了很好的图形描述,而偏度则从数值角度对数据的分布进行了描述

偏度计算公式如下


偏态可分为左偏(偏度为负值)、对称(偏度为为0)、右偏(偏度为正值)




对于一个对称分布,平均数和中位数是相等的,对左偏而言,平均数比中位数要小,对右偏而言,平均数比中位数要大。




z-分数(z-score)


z-分数可以用于解释数据x距离平均值的标准差的个数




切比雪夫定理——能使我们指出与平均数的距离在某个特定倍数的标准差之内数据项所占比例  (可以适用于任意数据集而不论其数据分布的形状)

【与平均数的距离在z个标准差之内的数据项所占比例至少为,式中z是大于1的任意实数】




与切比雪夫定理相比,如果数据集具有峰形或钟形分布,则可以运用经验法则(empirical)来确定与平均数的距离在某个特定倍数的标准差之内数据项所占比例(更为精确)

------------------------------------------------------------------------------

经验法则:

  • 大约68%的数据项与平均数的距离在1个标准差之内
  • 大约95%的数据项与平均数的距离在2个标准差之内
  • 几乎所有的数据项与平均数的距离在3个标准差之内
--------------------------------------------------------------------------------



异常值(outlier)

一般将z-分数小于-3或大于3的任何数值都视为异常值



协方差(covariance) ——描述两变量间线性关系的度量

样本协方差:


总体协方差:



因为协方差依赖于两个变量的计量单位,为了避免这一因素的影响我们引入相关系数这一概念

相关系数为协方差除以两个变量标准差的乘积


0 0