数据分析介绍之六——单变量数据观察之汇总统计和箱线图

来源:互联网 发布:搜索引擎 数据库 区别 编辑:程序博客网 时间:2024/06/02 03:21

你可能已经注意到,到目前为止我还没有在所有关于平均数和中位数、标准差等简单的主题发言,和百分位数。那是很有意的。这些汇总统计仅适用于某些假设,如果这些假设未实现,则是误导性的,如果不是完全错误的话。我知道这些量是容易理解和容易计算的,但是如果有一条信息我想让你从这本书中拿走的话,那就是:某物是方便和受欢迎的事实是没有理由跟风的。对于要使用的任何方法,请确保了解基本假设,并始终检查它们是否满足您所考虑的特定应用程序!

均值、中位数和相关汇总统计量仅适用于具有单峰分布的单峰分布的分布。如果这个基本假设没有实现,那么基于简单总结统计得出的结论将是错误的。更糟糕的是,没有什么能让你明白他们错了:这些数字看起来相当合理。(我们将看到这个问题的一个例子不久。)

一、汇总统计

如果一个分布只有一个单峰,那么问这个峰值的性质:它位于何处,它的宽度是什么意义?我们还想知道是否有任何异常的分布是对称的,存在。

均值和标准差的位置和传播两种流行的措施。平均或平均是既熟悉和直观的:
这里写图片描述

标准差测量了平均值与平均值之间的距离:我们计算每个点和平均值之间的所有差异,然后计算所有这些差异的平均值。因为数据点可以高于或低于平均和我们想要的不正、负偏差相互抵消,总结个人的偏差的平方和取平均平方偏差。(第二个方程在实践中非常有用,可以从第一个定义中找出均值之后)。

这里写图片描述

以这种方式计算的S2量称为方差,从理论观点来看是更重要的量。但是,作为衡量分布分布的一个指标,我们最好使用它的平方根,也就是标准偏差。为什么要取平方根呢?因为这两种方法都对位置进行度量,而传播的度量将具有相同的单位,也就是实际数据的单位。(如果我们的数据集包含一篮子货物的价格,那么方差将以“平方美元”计算,而标准偏差将以美元计算)。

对许多人来说(当然不是全部!)实践中出现的数据集,可以期望对所有数据点三分之二落在区间[ M−S,M + S的所有点]和99%落在宽区间[M−3S,M + 3S ]。

均值和标准差容易计算,并且提供了一些良好的数学性质,只要数据是对称的且不包含疯狂离群值。不幸的是,许多数据集违反这些假设至少有一个。这是一个可能会遇到的一种故障一例。假设我们有10个项目1美元的成本,一项耗资20美元。平均项目价格是2.73美元,即使没有任何物品的价格接近这个值。标准偏差甚至更糟:它出来的5.46美元,这意味着大多数项目都有一个价格在2.73美元−$ 5.46和$ 2.73 + 5.46美元。“预期范围”现在包括负价格明显荒谬的结果。请注意,数据集本身并不是特别病态:去杂货店买一把糖块和一瓶葡萄酒就可以了(当然,这酒不错,但没什么可怕的)。

一组不同的汇总统计,更灵活和更强大的基于中位数和分位数和百分位数的概念。中位数通常被定义为数据集的值,使得数据集中的所有点的一半是较小的,而另一半是该值的一半。百分位数是这个概念的其他组分的综合(第十百分位是10%点,所有的数据集都小于它的价值等)。百分位数是相似的,只是他们的考虑点的分数,不占点(换句话说,第十分等于0.1分位数)。

尽管它很简单,但百分位数的概念还是含糊不清的,所以我们需要更加努力,使它真正的具体化。作为发生问题的一个例子,考虑数据集{ 1, 2, 3 }。中位数是多少?不可能把这个数据集分成两个相等的部分,每个部分恰好包含一半的分数。当我们处理任意的百分位数(而不是中位数)时,这个问题就变得更不舒服了。

互联网标准制定的RFC 2330(“框架的IP性能指标”)给在CDF术语的定义是明确的和百分位数,实用,如下。PTH百分位数是最小值x,使得x的累积分布函数大于或等于p/100。

百分位数:最小的x,p(x)的CDF≥P / 100

这个定义假定CDF归一化为1,不到100。如果是标准的100,条件将CDF(x)≥P.

这一定义的中位数(IU,50百分位数)的数据集合{ 1,2,3}是因为CDF(2,1)= 0.33。…………………CDF(2)= 0.66。…………………CDF,和(3)= 1.0。的中位数的数据集{1,2}1现在是因为CDF(1)= 0.5,和CDF(2,2)= 1.0。

中位数的分布位置的测量,我们可以使用百分制分布宽度的测量。可能是最经常使用的数量这一目的是四分位数间距(IQR),这之间的距离是第七十五分和第二十五分。

当你忙的中位数和百分位数平均值和标准偏差?当你怀疑你的分布是非对称的或重要的异常。

如果一个分布是对称的和良好的行为,那么平均和中位数将非常接近,在使用两个几乎没有差别。一旦分布变得偏斜,基础假设作为分布位置的量度的基本假设就不再满足,所以使用中位数更好。(这就是为什么平均工资通常是在官方刊物作为家庭收入中位数,而不是平均;后者将大幅扭曲的几户具有非常高的收入。)此外,你有异常的时候,背后的假设标准差作为衡量分布的宽度被侵犯在这种情况下你应该赞成;IQR(回忆我们的购物篮前面的例子)。

如果中位数和百分位数是如此之大,那我们为什么不经常使用它们?对均值和方差的偏好的很大一部分是历史。前几天在现成的计算能力,百分位数不实际的计算。记住,找到百分位数需要设置而找到的平均数据排序,只需要在任何命令所有的因素加起来。后者是一个O(n)的过程,但前者是O(n2)的过程,因为人类是非递归的快速排序,因此不能教需要采取更有效的排序算法。另一个原因是,它是很难证明百分严格的定理,而均值和方差的数学很好,容易相处。

二、盒形和晶须图

这里写图片描述

有一个有趣的图形方法来表示这些数量,连同潜在的离群值的信息,称为盒子和晶须情节,或框情节为短。图2-15个箱形图的所有组件。一个盒子包括:

  1. 一个标记或符号为中位数的分布位置指示器
  2. 一个盒子,跨越四分位数范围,作为衡量分布的宽度
  3. 从中心盒延伸到上下相邻值的一组晶须,作为分布尾部的指示物(下一段中定义“相邻值”)。
  4. 对于相邻值范围以外的所有值的单个符号,作为异常值的表示。

你可以看到一个箱形图结合了大量的信息在一个单一的图。以前我们几乎碰到过所有这些概念,除了上下两个相邻的值。而间距范围是衡量为中央“体宽”的分布,相邻的值表示多远它的尾巴达成一个可能的方式。上相邻值是数据集中的最大值,该值小于中间四分位数范围大于中位数的两倍。换句话说:延长须向上正中有两倍中央框的长度。现在将晶须修剪为实际发生在数据集中的最大值;这个值是上相邻值。(类似施工对相邻的低值。)

你可能会怀疑这个奇特的建筑的原因。为什么不简单地把胡须延伸到第五和第九十五的百分位,然后用它完成呢?这种方法的问题在于它不允许我们识别真正的离群值!离群值是指与分布宽度相比,远离中心的数据点。这些值可能存在,也可能不存在。在顶部和底部5%,另一方面,总是存在,即使是非常紧凑的分布。为了识别离群值,我们不能简单地看最极端的值,相反,我们必须比较它们与中心的距离和分布的总宽度。这就是前面一段所描述的盒子和晶须图。

在前面论证的逻辑是非常重要的(不仅在这方面的应用更普遍,因此我要重申)的步骤:首先计算分布的宽度的测量,然后用这个宽度识别离群点,远离中心,在那里(这是关键步)“远”是在分布的宽度的测量单位。我们不强加一个任意的距离以外,我们也不只是简单的标签最极端的X %的分布异常相反,我们确定的分布宽度(为范围,分“一般”掉)然后用它来识别离群点,偏离这个范围。这里的重要的见解是,分布本身决定了一个典型的规模,它提供了一个自然单位,以衡量分布的其他属性。使用系统的一些典型属性来描述系统其他部分的想法稍后会再次出现(见第8章)。

箱线图结合许多不同的分配到一个单一的措施,紧图。一个方块图可以让我们看到分布是对称的还是不存在的,以及权重是如何分布在中心峰和尾部之间的。最后,离群值(如果有的话)不下降,但明确表示。

当用一个分布来比较多个分布时,框图是最好的,而编制和管理图表的开销(与引用数字相比)往往显得不合理。这里有一个例子,比较不同的数据集对彼此的。

这里写图片描述

假设我们有一个包含121个玻璃样品折射率的数据集。*数据集由玻璃类型分解:70个窗口玻璃样品,29个前照灯,13个不同类型的容器,9个餐具。图2-14、2-15个表示相同的数据,前者为核密度估计,后者为箱形图。

框图强调数据集的总体结构,并根据它们的位置和宽度方便地比较数据集。同时,也失去了太多的信息。KDE提供了更详细的数据视图,特别是显示了分布函数中多个峰值的出现,但这使得对数据集进行快速排序和分类变得更加困难。根据您的需要,一种或另一种技术可能是最好的在任何给定的时间。

这里有一些关于框图的附加说明。

  1. 我在这里描述的一个盒子图的具体方法特别有用,但远非通用。特别是,相邻的值的具体的定义往往是不正确的理解。每当你发现自己在看一个框的情节,总是问到底是什么显示,每当你准备一个,一定要包含一个解释。
  2. 这里描述的盒形图可以进行修改和增强。例如,中央框的宽度(即,与晶须正交的方向)可以用来指示基础数据集的大小:包含更多的点,更宽的框。另一种可能性是放弃矩形盒子的形状完全使用盒子的地方宽度在每个位置-这给我们带来了几乎全部的圈KDEs显示点的密度。
阅读全文
0 0
原创粉丝点击