来自大数据的反思:需要你读懂的10个小故事 二

来源:互联网 发布:淘宝如何举报盗图 编辑:程序博客网 时间:2024/04/29 13:59

故事04:园中有金不在金——大数据的价值 

人们在描述大数据时,通常表明其具备4个V特征,即4个以V为首字母的英文描述:Volume(体量大)、Variety(模态多)、Velocity(速度快)及Value(价值大)。前三个V,本质上,是为第四个V服务的。试想一下,如果大数据里没有我们希望得到的价值,我们为何还辛辛苦苦这么折腾前3个V?

英特尔中国研究院院长吴甘沙先生说,“鉴于大数据信息密度低,大数据是贫矿,投入产出比不见得好。”《纽约时报》著名科技记者Steve Lohr,在其采访报道“大数据时代(The Age of Big Data)”中表明7,大数据价值挖掘的风险还在于,会有很多的“误报”发现,用斯坦福大学统计学教授Trevor Hastie的话来说,就是“在数据的大干草垛中,发现有意义的“针”,其困难在于“很多干草看起来也像针(The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles)”

针对大数据的价值,李国杰院士借助中国传统的寓言故事《园中有金》,从另外一个角度,说明大数据的价值,寓言故事是这样的8

有父子二人,居山村,营果园。父病后,子不勤耕作,园渐荒芜。一日,父病危,谓子曰:园中有金。子翻地寻金,无所得,甚怅然。是年秋,园中葡萄、苹果之属皆大丰收。子始悟父言之理。

人们总是期望,能从大数据中挖掘出意想不到的“大价值”。可李国杰院士认为8,实际上,大数据的价值,主要体现在它的驱动效应上,大数据对经济的贡献,并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。

大数据是典型的通用技术,理解通用技术的价值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,并非是自己酿造的蜂蜜,而是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果,没有蜜蜂的一份功劳?

回到前文的小故事,儿子翻地的价值,不仅在于翻到园中的金子,更是在于翻地之后,促进了秋天果园的丰收。在第03个小故事中,醉汉黑暗中寻找的钥匙,亦非最终的价值,通过钥匙打开的门才是。

对于大数据研究而言,一旦数据收集、存储、分析、传输等能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,也极大地推动了诸如计算机软硬件、数据分析等行业的发展,大数据的价值也已逐步体现。

李国杰院士认为,我们不必天天期盼奇迹出现,多做一些“朴实无华”的事,实际的进步就会体现在扎扎实实的努力之中。一些媒体总喜欢宣传一些抓人眼球的大数据成功案例。但从事大数据行业的人士,应保持清醒的头脑:无华是常态,精彩是无华的质变。

如果把“大数据”比作农夫父子院后的那片土地,那么土地的面积越大,会不会能挖掘出的“金子”就越多呢?答案还真不是,下面的故事我们说说大数据的大小之争。

故事05:盖洛普抽样的成功——大小之争,“大”数据一定胜过小抽样吗?

1936年,民主党人艾尔弗雷德•兰登(Alfred Landon)与时任总统富兰克林·罗斯福(Franklin Roosevelt)竞选下届总统。《文学文摘》(The Literary Digest)这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”,是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中,成功地预测总统宝座的归属。
1936年,《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查,不同于前几次的调查,这次调查把范围拓展得更广。当时大家都相信,数据集合越大,预测结果越准确。《文学文摘》计划寄出1000万份调查问卷,覆盖当时四分之一的选民。最终该杂志在两个多月内收到了惊人的240万份回执,在统计完成以后,《文学文摘》宣布,艾尔弗雷德•兰登将会以55比41的优势,击败富兰克林·罗斯福赢得大选,另外4%的选民则会零散地投给第三候选人。
然而,真实的选举结果与《文学文摘》的预测大相径庭:罗斯福以61比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是,新民意调查的开创者乔治·盖洛普(George Gallup),仅仅通过一场规模小得多的问卷——一个3000人的问卷调查,得出了准确得多的预测结果:罗斯福将稳操胜券。盖洛普的3000人“小”抽样,居然挑翻了《文学文摘》240万的“大”调查,实在让专家学者和社会大众跌破眼镜。

显然,盖洛普有他独到的办法,而从数据体积大小的角度来看,“大”并不能决定一切。民意调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题:样本误差和样本偏差。

在过去的200多年里,统计学家们总结出了在认知数据的过程中存在的种种陷阱(如样本偏差和样本误差)。如今数据的规模更大了,采集的成本也更低了,“大数据”中依然存在大量的“小数据”问题,大数据采集同样会犯小数据采集一样的统计偏差【3】我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上,它们还都在,甚至问题更加突出。

盖洛普成功的法宝在于,科学地抽样,保证抽样的随机性,他没有盲目的扩大调查面积,而是根据选民的分别特征,根据职业、年龄、肤色等在3000人的比重,再确定电话访问、邮件访问和街头调查等各种方式所在比例。由于样本抽样得当,就可以做到“以小见大”、“一叶知秋”。

《文学文摘》的失败在于,取样存在严重偏差,它的调查对象主要锁定为它自己的订户。虽然《文学文摘》的问卷调查数量不少,但它的订户多集中在中上阶层,样本从一开始就是有偏差的(sample bias),因此,推断的结果不准,就不足为奇了。而且民主党人艾尔弗雷德•兰登的支持者,似乎更乐于寄回问卷结果,这使得调查的错误更进了一步。这两种偏差的结合,注定了《读者文摘》调查的失败。

我们可以类比一下《文学文摘》的调查模式,试想一样,如果在中国春运来临时,在火车上调查,问乘客是不是买到票了,即使你调查1000万人,这可是大数据啊,结论毫无意外地是都买到了,但这个结果无论如何都是不科学的,因为样本的选取是有偏的。

当然,采样也是有缺点的,如果采样没有满足随机性,即使百分之几的偏差,就可能丢失“黑天鹅事件”的信号,因此在全数据集存在的前提下,全数据当然是首选(但从第02故事中,我们可以看到,全数据通常是无法得到的)。对针对数据分析的价值,英特尔中国研究院院长吴甘沙先生给出了一个排序:全数据>好采样数据>不均匀的大量数据。

大数据分析技术运用得当,能极大地提升人们对事物的洞察力(insight),但技术和人谁在决策(decision-making)中起更大作用?在下面的“点球成金”小故事,我们聊聊这个话题。

故事06:点球成金——数据流PK球探,谁更重要?

《点球成金》(Moneyball)又是一例数据分析的经典故事:

长期以来,美国职业棒球队的教练们依赖惯例规则是,依据球员的“击球率(Batting Average, AVG)”(其值等于安打数/打数),来挑选心仪的球员。而奥克兰“运动家球队”的总经理比利•比恩(Billy Beane)却另辟新径,采用上垒率指标(On-Base Percentage, OBP)来挑选球员,OBP代表一个球员能够上垒而不是出局的能力。
采用上垒率来选拔人才,并非毫无根据。通过精细的数学模型分析,比利•比恩发现,高“上垒率”与比赛的胜负存在某种关联(corelation),据此他提出了自己的独到见解,即一个球员怎样上垒并不重要,不管他是地滚球还是三跑垒,只要结果是上垒就够了。在广泛的批评和质疑声中,比恩通过自己的数据分析,创立了“赛伯计量学”(Sabermerrics)。据此理论,比恩依据“高上垒率”选取了自己所需的球员,这些球员的身价远不如其他知名球员,但比利•比恩却能带领这些球员在2002年的美国联盟西部赛事中夺得冠军,并取得了20场连胜的战绩。


图5 点球成金(图片来源:wikipedia.org)

这个故事讲得是数量化分析和预测对棒球运动的贡献,吴甘沙先生认为,它在大数据背景下出现了传播的误区:

第一,它频繁出现在诸如舍恩伯格《大数据时代》之类的图书中,其实这个案例并非大数据案例,而是早已存在的数据思维和方法。在“点球成金”案例中的数据,套用大数据的4V特征,基本上,无一符合。

第二,《点球成金》无论是小说,还是拍出来的同名电影,都刻意或无意忽略了球探的作用。从读者/观众的角度来看,奥克兰“运动家球队”的总经理比利·比恩完全运用了数据量化分析取代了球探。而事实上,在运用这些数据量化工具的同时,比恩也增加了球探的费用,“军功章里”有数据分析的一半,也有球探的一半。

目前的大数据时代,就有这么两个流派,一派是技术主导派,他们提出“万物皆数”,要么数字化,要么死亡(孙正义在对日本企业界的演讲上所言),他们认为技术在决策中占有举足轻重地作用。另一派是技术为辅派,他们认为,技术仅仅是为人服务的,属于为人所用的众多工具的一种,不可夸大其作用。

针对《点球成金》这个案例,比利•比恩的拥趸者就属于“数据流党”,而更强调球探作用的则归属于“球探党”。

球探党Bill Shanks在其所著的《球探的荣耀:论打造王者之师的最勇敢之路》(Scout’s Honor: The Bravest Way To Build A Winning Ballteam)中【9】,对数据流党的分析做出了强有力地回应。他认为,球探对运动员定性指标(如竞争性、抗压力、意志力,勤奋程度等)的衡量,是少数结构化数据(如上垒率等)指标无法量化刻画的。

和《点球成金》观点针锋相对的是,Bill Shanks更认可球探的作用,他把球探的作用命名为“勇士”哲学。对于勇士来说,数据分析只是众多“刀枪棍棒”兵刃中的一种,无需奉之如圭臬,真正能“攻城略地”的还是需要勇士。比如说,运动家棒球队虽然在数据分析的指导下,获得了震惊业界的好成绩,然而他们并没有取得季后赛的胜利,也没有夺取世界冠军,这说明,数据分析虽重要,但人的作用更重要!

从第01故事的分析中,我们知道,大数据分析的第一层作用就是,面向过去,发现潜藏在数据表面之下的历史规律或模式,也就是说达到描述性分析。而为了让读者相信数据分析的能力,灌输一些“心灵鸡汤(或称洗脑)”,是少不了的,哪怕它是假的!

故事07:啤酒和尿布:经典故事是伪造的,你知道吗?

这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒!
尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。

上面这个案例,出自于涂子沛先生的所著的大数据畅销书《数据之巅》,在这个案例中,要情节有情节,要数据,有数据,誓言旦旦,不容你置疑。但是,这个故事虽经典,但是让你意想不到的是:

1.案例是编造的

这个经典的“啤酒和尿布” (Beer and Diapers)的案例,不仅是《大数据》类图书的常客,事实上,它更是无数次流连于“数据挖掘”之类的书籍中,特别是用来解释“关联规则(Association Rule)”的概念,更是“居家旅行,必备之良药(周星驰语)”。当前,基本上所有讲大数据应用,都会捎带讲上这个经典案例,要求大家多研究“相关性”,少研究因果关系!但实在扫兴的是,这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽,但信不得!

  • 实践是检验真理的唯一标准。如果这个故事是真的,按理说,应该给超级市场以无限启发才对,可实际上,不管是中国,还是在美国,在超市里面观察一下,就会发现,根本没有类似的物品摆放,相近的都很少。
  • 故事性强,事出有因。据吴甘沙先生透露,它是Teradata公司一位经理编出来的“故事”,目的是让数据分析看起来更有力,更有趣,而在历史上从没有发生过,感兴趣的读者可以自己参阅文献。但公平地讲,这个故事对数据挖掘的普及意义重大,仅从教育意义上看,仍不失为一个好故事。

2.相关性并非什么大事

即便真的有这个案例,也不说明数据分析出来的“相关性”,有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是:趾高气扬的因果关系光芒不再,卑微的相关关系将被“翻身做主人”,知道“是什么”就够了,没必要知道“为什么”。但需要我们更为深入了解的事实是:

  •  要相关,不要因果”,这个观点其实并非舍恩伯格首先提出的。最早的提出者应为《连线》(Wired)主编Chris Anderson ,2008年他在题为 理论的终结:数据洪流让科学方法依然过时(End of Theory: the Data Deluge Makes the Scientific Method Obsolete9” 文章中,率先提出:在PB时代,我们可以说,有相关性足够了(Petabytes allow us to say: "Correlation is enough)"。


图6  连线杂志:理论的终结

  • “要相关,不要因果”的观点,并不受学术界待见。甚至,《大数据时代》的中文版翻译者周涛亦在序言里说,“放弃对因果关系的追求,是人类的堕落”。对于这个观点,李国杰院士认为10:在大数据中,看起来毫不相关的两件事同时或相继出现的现象比比皆是,相关性本身并没有多大价值,关键是找对了“相关性”背后的理由,才是新知识或新发现。

大数据分析的第二个功能,或者说更为的核心功能在于,预测。预测主要用于对未来进行筹划,大到产业的布局,小到流感的预警,均可用预测。但是对未来的预测,能准吗?


0 0