《统计陷阱》读后感

来源:互联网 发布:java 微商城 优惠券 编辑:程序博客网 时间:2024/06/17 18:17

《统计陷阱》读后感

知道这本的时候还是从我在大一刚进辩论队的时候,在日常的队训中听到队长建议阅读这本书的,之前总说要读呢,结果各种推过,现在终于静下心来阅读这本书了。看完之后的感触到真不少,而且总想着什么时候写一点读后心得之类的东西,无奈,因为惰性,大家也都是知道的。嘻嘻,废话不多说,直接进入正题。

先来谈谈写这本书的背景:在20世纪50年代,美国出现了一种尊崇统计风,太多的人都乐意,也轻易的相信了那些统计数据,原因很简单,大多数的统计数据都可以让不同的人产生不同的效果。例如,一个企业可以让员工看出今年的效益,同样的数据,换一种统计方法,也可以反映出企业的不景气,这就是为什么太多的公司,企业,甚至政府部门都习惯用统计的方法来传达自己的意思。介于这个背景之下,美国作家达莱尔·哈夫以一个经验老道,且退休的窃贼的身份,用回忆录的形式,在本书的前八章讲述了常用的一些行骗手段,在第九章总结了前面所列出的所有方法,而在最后一章中,教人们如何识破统计数据中的陷阱,告诫人们以一个正确的态度去看待一个数据,从而不做一个被数据玩弄于手的玩偶。

本书中列举出的,常用统计手段大致可分为:利用内在有偏样本,选出不同的平均数,隐藏总要的数据,忽略必要的误差,滥用统计图形,采用不完整匹配的资料以及误解相关关系等。当读完这本书时,回过头在,如果你用书中的衡量标准来看任何一组数据,都会发现其中的不可行性,所有的数据都是可以质疑的,那么不禁会有两种念头:其一,为什么统计着要这样做,公布这样的数据是为什么?答案很简单,无非是利益所趋,商家,政府乃至所有人都想隐藏掉那些自己认为很重要的数据,公诸于世的无非是想博得同情或者获得荣耀。其二,这个世上不就没有可以相信的数据,因为没哟绝对的正确,那么我们是否就因此而否定自己看到的,听到的一切呢?显然不是,这本书最重要的是,教会我们如何正确的看待数据,正确的从数据中拿去自己需要的,不可全信,但不意味着一点也都不可信。

在这里,我重点来谈谈:内在有偏样本,选取不同平均数,采用不完整匹配的资料以及误解相关关系这几种“行骗手段”。首先说说内在有偏样本,我用原文中的一个例子来解释这种方法的意思:

 

“1924级的耶鲁毕业生平均年收入有25111美元。”《时代》杂志在评论纽约《太

阳报》的某篇报道时曾经指出。

乍眼一看,感觉耶鲁大学的确是个很了不起的学校,那里面的毕业生都有高质量的就业率。在感叹之余,细细想想,你会发现有两点可以之处:第一,如此的精确;第二,竟然如此的大。那么,这个精确地个位的收入是如何得出来的呢?除非是在保证没有外快的情况下,只靠工资条生活的人,他的工资才是有可能精确地个位的,那么现实并非如此,越是成功的人,他的工资来源越是不那么单一。

我们都知道,只要样本足够大,并且具有代表性,在多数情况下,样本的信息可以很好地代表总体。但如果条件不满足,抽样的结果比一个臆想的结果好不到哪儿去——除了会形成一种十分科学精确的虚假印象意外,这种方法分本不值得推荐。然而,令人悲伤的事实是,在我们看到的或自以为知道的事物中,充斥着许多从类似的样本,即有偏的或过小的或两者都满足的样本中得出的结论。耶鲁大学的收入同样也是一个样本,但恰恰这个因为是有太多的偏差的。可以肯定的是,没有谁可以掌握25年后所以存活的1924届耶鲁大学生的收入情况。此外,在你可以联系得到的人中,能接受问卷调查的人数是屈指可数的。在这里,需要提醒大家的是,一般的问卷调查,5%~10%的回收率就已是相当可观的了,在加上调查内容的不同,这个比例还是会有出入的,但决定不能达到百分之百。最重要的,并非所有接受问卷调查的人都是可以说实话的。尤其是在工资这种很敏感的话题上。试想想一个税务局的人员来调查你的收入情况,你会如实回答吗?我想未必,多数人都会尽可能的说的小一点,毕竟说的多了,可能意味着要多交一点税呢。再有,和同学聚会是,看见被人都在侃侃而谈,你非但不会如实回答自己的工资数,因为虚荣心,多多少少都会夸大一点。这些都是合乎常理,同样也是无法避免的。而对于那些从名校毕业,但现状落魄的人,肯定不愿意透露自己的实际情况。那么,不难看出,耶鲁大学的毕业生收入情况,它仅仅代表了1924届中可以联系得到的人中的愿意站出来说出自己输入的那些特殊人群。因为调查的对象本来就存在明显的差异和偏向性,这是导致其最终结果失败的根本原因。

接下来,同样用一个例子来谈谈对平均数的选取。

一个老板为了炫耀自己公司的福利有多好,就在招聘部门公布了这样的一个信息:本公司的全体员工的平均收入是5700美元。

听上去挺不错的。可是你得自习想想,这里的平均到底是什么平均数?是算术平均数?是众数还是中位数?作为应聘的你,更希望的这个平均是众数吧,因为这样以来,公司总出现次数最多的是5700美元,而任何一个公司的基层人员往往是最多的,那么就意味着即使你是普通员工,也可以拿到这个丰厚的薪水。可现实并非如此,通常这里的均数都是算术平均数,因为全体员工中,包含了老板,经理等高层人士,同样也包括了基层员工。可是当高层的工资数高达上万,甚至几十万,而基层的员工拿着不到两千甚至不足一千的收入时,照样可以平均到五六千的收入。

所以,在以后的阅读中,尤其是对这种带有平均感念的统计数据中,不禁的要反问一句,它到底是什么平均数,不然,你将得到会与你的想法大径相同。

让我们一同来看看不完整的匹配资料这种手段。有这样的一个例子:“去年飞机失事造成的人员死亡比1910年多”,这是否意味着现在乘飞机要比过去危险?我们都知道,在现阶段的这个社会中,因交通事故死亡的人数比上个世纪中整整一百年中死亡的人数还要多,难道就因此要否定社会的进步吗?这种牛头不对马嘴的匹配显然是不对的。看看历史,不难发现,在过去的一个世纪了,能乘坐飞机的的人数有多少,而现阶段,在这样大的一个基数下,我们不妨做个简单是算术,用每年死亡的人数除以每年的客流量,那么你将会发现,现阶段的死亡比率将会小的可以忽略。而太多的人们总喜欢用比较多额手段来评判事物的好坏,可遗憾的是用错误的参考对象;来作比较。这种情况在我们的生活中比比皆是。在这里也不一一列举,只想告诉大家的是,在对于比较性的统计数据中,在被统计数据所震惊的同时,想想他们的对比是否在同一个标准,所采用的对象是否具有比较的意义。

接下来的这种“行骗手段”是我们在生活中最难察觉,恰恰是最被“骗子们”惯用的一种手法。相关关系与因果关系。在这里先介绍一种统计学中的一个经典谬误:如果B紧跟着A出现,那么A一定导致了B的发生。举一个简单例子:有两块准时的时钟,当a到某一整点时刻是,时钟b就会敲响。那么是否b钟的敲响是否取决于a钟是否走到该整点时刻呢?显然不是的。

我们只能称之为是一种联合变动。而联合变动一种普遍形式是存在其真实性的,但无法区分之间的因果关系,或者说,他们之间就没有必然的因果联系。收入与拥有的股票之间便是这种相关。你拥有越多的钱,便能买更多的股票;同时,你手头的股票越多,又可以为你带来更多的收入。在这种情况下,简单地认为一个因素引起另一个因素是不全面的。

最具有戏剧性的相关是所有变量相互间没有任何影响,却存在着显著的相关。例如:抽烟和学习成绩的问题。

有人曾经费尽周折以探求是否抽烟者的大学成绩比不吸烟者的差,结果的确如此。这着实让一些人高兴,从此,他们多次使用这个结论。往通往好成绩的道路上存在着放弃抽烟的痛苦。进步使用该结论,还有这样合理的推断:抽烟使人的头脑变笨。当抽烟与低分同时出现时,人们得到了一个未经证实的假设,抽烟导致低分。难道就不能是相反的解释吗?也许低分促使学生不喝酒而变得爱抽烟。这种说法与前一种一样能得到证据很好的支撑。只是它不能够满足宣传人员的要求。

      最后,和大家共同分享一则我最喜欢的统计案例。

《纽约时报》在报道一条来自印第安纳波利斯城的美联社新闻时,在偷换基数问题

上犯了错误。

今天,经济危机已大为缓解。属于印第安纳波利斯城建筑贸易工会的管子工、泥水匠、木工、油漆工和其他工种的工人享受了5%的工资提升,这是去年冬天工资下降20%的四分之一补偿。表面上很合理——但是请注意,减少是以原有工资为基数计算的,而增加却使用了较小的基数,即削减后的收入。

我们可以通过一些假设数据来进行检验。为简单起见,假设原有收入为1美元,减少20%,

即为80美分,而在80美分的基础上增加5%仅提高了4美分,它是原来减少量20美分的五分之一,而非四分之一。和许多看起来似乎正确的错误一样,这个错误通过巧妙的夸张,使事情看上去更美妙了。

这种偷换概念是最难察觉得到的,同时是欺骗手段最高明的,

举一个最简单的例子,让我们假设去年一夸脱牛奶值20美分,一条面包5美分。今年牛奶

的价格降至10美分,而面包的价格升至l0美分。现在你想证明什么呢?物价指数上升?物价指数下降?或者根本没有变化?

首先选择去年作为基期,也就是说,以去年的价格为100%。既然牛奶的价格降了一半(即50%),并且面包的价格是去年的2倍(即200%),将50%与200%进行平均得125%,与去年相比,今年的价格上涨了25%。

用另一种方法试试,以今年的价格为基期。去年牛奶的价格是今年的200%,而面包的价格是今年的50%,平均数又是125%,也就是说,去年的价格比今年的高25%,今年的价格下降了。

如果你想证明价格没有发生变化,试试使用几何平均数,这时你可以随意选择基期。几何平均数不同于算术平均数,或均值;但它也是合法的计算方法,而且在某些情况下它是一种最有效的方法。计算3个数的几何平均数,只需将3个数相乘,开3次方根;4个数的几何平均数,开4次方根;两个数的则开平方根,以此类推。

事实是,如果不去考虑它的数学基础。统计不仅是一门科学,而且还是一门艺术。许多控制甚至扭曲都是在合理范围之内进行的。统计工作者经常要在许多方法中主观地选择一种方法以描述事实。在商业活动中,统计工作者不大可能选择不利于己的方法,就像撰稿人在描述赞助商的产品时,不会使用“易碎、价格低贱”的字眼,而会说“轻便、经济、实惠”。即使是学术界,学者也有自己的偏好(可能是无意识的)。

所有这些都在提醒大家,在报纸、杂志和书籍中看到统计材料、结论以及数据时,应该经过认真的思考后再接受它们。有时候,更仔细的一瞥有利于进一步了解真相。而武断地拒绝统计方法也是因噎废食,不值得提倡。

 

 

 

0 0