数据分析介绍之五——单变量数据观察之排序图和升幅图

来源:互联网 发布:医院网络咨询话术 编辑:程序博客网 时间:2024/05/21 19:38

这里写图片描述
有一个与直方图和CDF有关的技术是值得了解的。 请考虑以下情况。 正在销售教科书和其他课程材料的公司正在计划一个电子邮件营销活动,以便与现有客户联系。 对于此次活动,该公司希望使用针对每个收件人职位的个性化电子邮件(以便教师将收到与其校长不同的电子邮件)。 问题是客户数据库包含大约25万个客户记录,其中超过16,000个不同的职位! 怎么办?

诀窍是按照与每个职位相对应的个人客户记录的数量对职位进行排序。 前几个记录如表2-1所示。 四列列出了职称,该职位的客户人数,所有具有该职称的客户的部分,最后是客户的累积分数。 对于最后一列,我们总结了当前和所有以前看到的职位的客户数量,然后除以客户记录的总数。 这相当于我们前面讨论的CDF。

我们可以立即看到,全部三分之二的客户只占10个不同的职位。 仅使用前30名职位就可以获得75%的客户记录。 这比我们开始的16,000个职位要容易得多!

我们再来一会儿,了解这个例子与以前见过的不一样。 这里需要注意的是独立变量没有固有的顺序。 这是什么意思?

对于Web服务器示例,我们计算每个响应时间的事件数; 因此,每个bin的事件计数是因变量,它由独立变量即响应时间决定。 在这种情况下,独立变量具有固有的顺序:100毫秒总是小于400毫秒(等等)。 但是,在计算与某一职位相符的客户记录的情况下,自变量(职称)没有相应的排序关系。 可能会出现其他原因,因为我们可以按字母顺序排列工作标题,但是意识到这个排序是完全任意的! 没有什么“根本”的。 如果我们选择不同的字体编码或区域设置,订单将会更改。 与数字的排序关系对比,没有两种方法:1总是小于2。

在这种情况下,独立变量没有内在排序的情况下,依赖变量排序条目通常是一个好主意。 这就是我们在示例中所做的:而不是在职位上定义一些(任意)排序顺序,我们按照记录数(即由因变量)排序。 一旦以这种方式对记录进行了排序,我们可以像之前一样形成直方图和CDF。

这里写图片描述
这里写图片描述

当独立变量没有一个有意义的排序关系时,这个依赖变量排序的技巧是有用的,它不局限于我们计算每个bin事件的情况。图2-12和2-13显示两个典型的例子。

图2-12示销售由某公司在不同的国家。不仅是对每个国家的销售,而且还显示了累计销售,这使我们能够评估销售分布剩余的“尾部”的重要性。

在这个例子中,我选择了情节沿垂直轴的独立变量。这是一个很好的想法时,值可以是字符串,因为它们更容易阅读的方式。(如果你沿着水平轴绘制它们,通常需要将字符串旋转90度使其合适,这使得阅读起来很困难。)

图2-13显示什么质量工程中被称为帕累托图。在质量工程和过程改进中,目标是减少某一产品或过程中的缺陷数量。收集缺陷的所有已知原因并观察每一个缺陷的发生频率。结果可以在图如图2-13个方便了。请注意,缺陷的原因按其发生频率排序。

从这张图表中我们可以立刻看出,发动机和电气系统的问题比空调、制动器或变速器的问题更为常见。事实上,通过观察累积误差曲线,我们可以发现仅修复前两个问题区域将使总体缺陷率降低80%。

另外两个术语:“帕累托图”一词在前一段提到的具体工程学科之外没有广泛使用。我个人倾向于首先通过依赖变量(即条目的秩)对所有条目进行排序产生的任何图的表达式秩顺序图。累积分布曲线有时被称为升力曲线,因为它告诉我们从每个条目或范围内获得多少“升力”。

阅读全文
0 0