数据分析介绍之八——双变量建立关系之散点图

来源:互联网 发布:linux telnet 退出 编辑:程序博客网 时间:2024/05/23 00:39

一对一的绘制数据是简单的就去做!事实上,这恰恰是大多数人的意思是说当他们关于“策划”的东西。然而,正如我们将看到的那样,存在着差异。

这里写图片描述

这里写图片描述

图3-1和3-2展示了两个例子。图3-1中的数据可能来自于测量两个相隔很短距离的表面之间的力的实验。力显然是距离的一个复杂函数,另一方面,数据点落在相对平滑的曲线上,我们可以确信它准确地代表了数据。(当然,我们应该要求图表中显示的测量的准确性:是否有明显的错误条附在数据点上?但这并不重要,数据本身清楚地表明数据中随机噪声的数量很小。这并不意味着数据没有问题,但是只有任何问题都是系统性的,例如,用仪器和统计方法是没有帮助的。)

相反,图3-2显示典型的统计分析数据的类型。在这里,我们可以显示皮肤癌的患病率作为一个功能的一组个人平均收入的或失业率作为一个高中辍学率的函数为多个县,和主要的问题是是否有任何关系都涉及两量之间。这里的情况与图3-1中所示的情况有很大的不同,在这一点上,X和Y之间存在着很强的关系,因此我们主要关心的是确定这种关系的确切性质。

如图3-2所示的图称为散点图或XY图。我更喜欢后者的术语,因为散点图我听起来太像“飞溅的情节,“这表明数据一定会吵闹,但我们不知道!一旦我们绘制出数据,结果可能是非常干净和有规律的,如图3-1所示,因此我对中性项更为满意。
这里写图片描述

当我们创建一个图,如图3-1或图3-2,我们通常想知道x和y之间是否存在关系,以及这种关系的本质是什么。图3-3显示了四种不同的可能性,我们会发现:没有关系;一个强大的,简单的关系;一个强大的,不是简单的关系;最后一个多元关系(一个是不是唯一的)。

阅读全文
0 0