《大数据时代》书评及书摘

来源：互联网发布：兄弟连java培训多少钱编辑：程序博客网时间：2024/05/18 16:36

三天的零碎时间把这本书读完了，内容本身其实很简单，也谈不上特别精彩，五分制的话我只能打三分。

我的理解，数据一生应该是包含了三个阶段：收集，分析，最后是预测。我们总能根据现有的数据（或者经验）预测未来（预测的正确与否是另外一回事），当数据的量级小的时候，能预见的未来可能是模糊的；但当数据积累到一定的程度，你就可能真的能预测未来了。

作者舍恩伯格列出了大数据时代的三个核心点：

不是随机样本，而是全体数据，即全数据模式，样本=总体。在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。
不是精确性，而是混杂性。研究数据如此之多，以至于我们不再热衷于追求精确度。
不是因果关系，而是相关关系。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大，人类还是习惯性地寻找缘由。相反，在大数据时代，我们无须再紧盯事物之间的因果关系，而应该寻找事物之间的相关关系，这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生，但是它会提醒我们这件事情正在发生。在许多情况下，这种提醒的帮助已经足够大了。

相对于上边这些概念性的东西，书中的一些数据和举例可能更有趣一些：

Facebook这个创立时间不足十年的公司，每天更新的照片量超过1000万张，每天人们在网站上点击“喜欢”（like）按钮或者写评论次数大约有三十亿次，这就为facebook公司挖掘用户喜好提供了大量的数据线索。

亚马逊可以帮我们推荐想要的书，谷歌可以为关联网站排序，facebook知道我们的喜好，而linkedin可以猜出我们认识谁。

有趣的是，在2007年，只有7%是存储在报纸、书籍、图片等媒介上的模拟数据，其余全部是数字数据。但在不久之前，情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念，但实际上，这些概念仍然是相当新颖的。甚至在2000年的时候，数字存储信息仍只占全球数据量的四分之一；当时，另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。

对冲基金通过剖析社交网络twitter上的数据信息来预测股市的表现；亚马逊和奈飞（netflix）根据用户在其网站上的类似查询来进行产品推荐；twitter，facebook，llinkedin通过用户的社交网络图来得知用户的喜好。

谷歌流感趋势预测并不是依赖于对随机样本的分析，而是分析了整个美国几十亿条互联网检索记录。分析整个数据库，而不是对一个样本进行分析，能够提高微观层面分析的准确性，甚至能够推测出某个特定城市的流感状况，而不只是一个州或是整个国家的情况。farecast的初始系统使用的样本包含12000个数据，所以取得了不错的预测结果。但是随着奥伦·埃齐奥尼不断添加更多的数据，预测的结果越来越准确。最终，farecast使用了每一条航线整整一年的价格数据来进行预测。埃齐奥尼说：“这只是一个暂时性的数据，随着你收集的数据越来越多，你的预测结果会越来越准确。”

=============书摘=============

人们不再认为数据是静止和陈旧的。但在以前，一旦完成了收集数据的目的之后，数据就会被认为已经没有用处了。

--------------------------------
半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引发了质变。最先经历信息爆炸的学科，如天文学和基因学，创造出了“大数据”这个概念。如今，这个概念几乎应用到了所有人类致力于发展的领域中。

--------------------------------
认为大数据是人们在大规模数据的基础上可以做到的事情，而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知，创造新的价值的源泉；大数据还是改变市场、组织机构，以及『政府』与公民关系的方法。

--------------------------------
互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍（等于2的50次方）字节的数据，这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。facebook这个创立时间不足十年的公司，每天更新的照片量超过1000万张，每天人们在网站上点击“喜欢”（like）按钮或者写评论次数大约有三十亿次，这就为facebook公司挖掘用户喜好提供了大量的数据线索。与此同时，谷歌子公司youtube每月接待多达8亿的访客，平均每一秒钟就会有一段长度在一小时以上的视频上传。twitter上的信息量几乎每年翻一倍，截至2012年，每天都会发布超过4亿条微博。

--------------------------------
有趣的是，在2007年，只有7%是存储在报纸、书籍、图片等媒介上的模拟数据，其余全部是数字数据。但在不久之前，情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念，但实际上，这些概念仍然是相当新颖的。甚至在2000年的时候，数字存储信息仍只占全球数据量的四分之一；当时，另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。

--------------------------------
按照希尔伯特的说法，数字数据的数量每三年多就会翻一倍。相反，模拟数据的数量则基本上没有增加。

--------------------------------
事情真的在快速发展。人类存储信息量的增长速度比世界经济的增长速度快4倍，而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。难怪人们会抱怨信息过量，因为每个人都受到了这种极速发展的冲击。

--------------------------------
大数据的核心就是预测。它通常被视为人工智能的一部分，或者更确切地说，被视为一种机器学习。

--------------------------------

大数据不仅改变了公共卫生领域，整个商业领域都因为大数据而重新洗牌。购买飞机票就是一个很好的例子。
　　2003 年，奥伦· 埃齐奥尼（Oren Etzioni）准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜，于是他在这个大喜日子来临之前的几个月，就在网上预订了一张去洛杉矶的机票。在飞机上，
　　埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚，但是票价却比他便宜得多时，他感到非常气愤。于是，他又询问了另外几个乘客，结果发现大家买的票居然都比他的便宜。对大多数人来说，这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而，埃齐奥尼是美国最有名的计算机专家之一，从他担任华盛顿大学人工智能项目的负责人开始，他创立了许多在今天看来非常典型的大数据公司，而那时候还没有人提出“大数据”这个概念。
　　1994 年，埃齐奥尼帮助创建了最早的互联网搜索引擎MetaCrawler，该引擎后来被InfoSpace 公司收购。他联合创立了第一个大型比价网站Netbot，后来把它卖给了Excite 公司。他创立的从文本中挖掘信息的公司ClearForest则被路透社收购了。在他眼中，世界就是一系列的大数据问题，而且他认为他有能力解决这些问题。作为哈佛大学首届计算机科学专业的本科毕业生，自1986 年毕业以来，他也一直致力于解决这些问题。
　　飞机着陆之后，埃齐奥尼下定决心要帮助人们开发一个系统，用来推测当前网页上的机票价格是否合理。作为一种商品，同一架飞机上每个座位的价格本来不应该有差别。但实际上，价格却千差万别，其中缘由只有航空公司自己清楚。
　　埃齐奥尼表示，他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降。这个想法是可行的，但操作起来并不是那么简单。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。
　　如果一张机票的平均价格呈下降趋势，系统就会帮助用户做出稍后再购票的明智选择。反过来，如果一张机票的平均价格呈上涨趋势，系统就会提醒用户立刻购买该机票。换言之，这是埃齐奥尼针对9 000 米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科学项目。不过，这个项目是可行的。于是，埃齐奥尼开始着手启动这个项目。埃齐奥尼创立了一个预测系统，它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41 天内价格波动产生的12 000 个价格样本基础之上，而这些信息都是从一个旅游网站上搜集来的。这个预测系统并不能说明原因，只能推测会发生什么。也就是说，它不知道是哪些因素导致了机票价格的波动。机票降价是因为很多没卖掉的座位、季节性原因，还是所谓的周六晚上不出门，它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买，这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字，叫“哈姆雷特”。
　　这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司，名为Farecast。通过预测机票价格的走势以及增降幅度，Farecast 票价预测工具能帮助消费者抓住最佳购买时机，而在此之前还没有其他网站能让消费者获得这些信息。
　　这个系统为了保障自身的透明度，会把对机票价格走势预测的可信度标示出来，供消费者参考。系统的运转需要海量数据的支持。为了提高预测的准确性，埃齐奥尼找到了一个行业机票预订数据库。有了这个数据库，系统进行预测时，预测的结果就可以基于美国商业航空产业中，每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出。如今，Farecast 已经拥有惊人的约2 000 亿条飞行数据记录。利用这种方法，Farecast 为消费者节省了一大笔钱。
　　棕色的头发，露齿的笑容，无邪的面孔，这就是奥伦· 埃齐奥尼。他看上去完全不像是一个会让航空业损失数百万潜在收入的人。但事实上，他的目光放得更长远。2008 年，埃齐奥尼计划将这项技术应用到其他领域，比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大，同时存在大幅度的价格差和大量可运用的数据，就都可以应用这项技术。但是在他实现计划之前，微软公司找上了他并以1.1 亿美元的价格收购了Farecast 公司。而后，这个系统被并入必应搜索引擎。
　　到2012 年为止，Farecast 系统用了将近十万
　　亿条价格记录来帮助预测美国国内航班的票价。
　　大数据洞察
　　Farecast 票价预测的准确度已经高达75 ％，
　　使用Farecast 票价预测工具购买机票的旅客，
　　平均每张机票可节省50 美元。
　　Farecast 是大数据公司的一个缩影，也代表了当今世界发展的趋势。五年或者十年之前，奥伦· 埃齐奥尼是无法成立这样的公司的。他说：“这是不可能的。”那时候他所需要的计算机处理能力和存储能力太昂贵了！虽说技术上的突破是这一切得以发生的主要原因，但也有一些细微而重要的改变正在发生，特别是人们关于如何使用数据的理念。

--------------------------------
亚马逊可以帮我们推荐想要的书，谷歌可以为关联网站排序，facebook知道我们的喜好，而linkedin可以猜出我们认识谁。

--------------------------------
大数据的核心代表着我们分析信息时的三个转变。这些转变将改变我们理解和组建社会的方法。

第一个转变就是，在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。

第二个改变就是，研究数据如此之多，以至于我们不再热衷于追求精确度。当我们测量事物的能力受限时，关注最重要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有80头牛还是100头牛，那么交易就无法进行。直到今天，我们的数字技术依然建立在精准的基础上。我们假设只要电子数据表格把数据排序，数据库引擎就可以找出和我们检索的内容完全一致的检索记录。这种思维方式适用于掌握“小数据量”的情况，因为需要分析的数据很少，所以我们必须尽可能精准地量化我们的记录。在某些方面，我们已经意识到了差别。例如，一个小商店在晚上打烊的时候要把收银台里的每分钱都数清楚，但是我们不会、也不可能用“分”这个单位去精确计算国民生产总值。随着规模的扩大，对精确度的痴『迷』将减弱。达到精确需要有专业的数据库。针对小数据量和特定事情，追求精确性依然是可行的，比如一个人的银行账户上是否有足够的钱开具支票。但是，在这个大数据时代，在很多时候，追求精确度已经变得不可行，甚至不受欢迎了。当我们拥有海量即时数据时，绝对的精准不再是我们追求的主要目标。大数据纷繁多样，优劣掺杂，分布在全球多个服务器上。拥有了大数据，我们不再需要对一个现象刨根究底，只要掌握大体的发展方向即可。当然，我们也不是完全放弃了精确度，只是不再沉『迷』于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

第三个转变因前两个转变而促成，即我们不再热衷于寻找因果关系。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大，人类还是习惯性地寻找缘由。相反，在大数据时代，我们无须再紧盯事物之间的因果关系，而应该寻找事物之间的相关关系，这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生，但是它会提醒我们这件事情正在发生。在许多情况下，这种提醒的帮助已经足够大了。如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症，那么找出具体的致病原因就没有这种治疗方法本身来得重要。同样，只要我们知道什么时候是买机票的最佳时机，就算不知道机票价格疯狂变动的原因也无所谓了。大数据告诉我们“是什么”而不是“为什么”。在大数据时代，我们不必知道现象背后的原因，我们只要让数据自己发声。我们不再需要在还没有收集数据之前，就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声，我们会注意到很多以前从来没有意识到的联系的存在。例如，对冲基金通过剖析社交网络twitter上的数据信息来预测股市的表现；亚马逊和奈飞（netflix）根据用户在其网站上的类似查询来进行产品推荐；twitter，facebook，llinkedin通过用户的社交网络图来得知用户的喜好。

--------------------------------
大数据时代的思维变革：不是随机样本，而是全体数据

--------------------------------
要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。其次，我们乐于接受数据的纷繁复杂，而不再追求精确性。最后，我们的思想发生了转变，不再探求难以捉『摸』的因果关系，转而关注事物的相关关系。

--------------------------------
在某些方面，我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。我们还是在信息匮乏的假设下做很多事情，建立很多机构组织。我们假定自己只能收集到少量信息，结果就真的如此了。这是一个自我实现的过程。我们甚至发展了一些使用尽可能少的信息的技术。别忘了，统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。事实上，我们形成了一种习惯，那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。为了理解大数据时代的转变意味着什么，我们需要首先回顾一下过去。小数据时代的随机采样，最少的数据获得最多的信息

--------------------------------
统计学家们证明：采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。虽然听起来很不可思议，但事实上，一个对1100人进行的关于“是否”问题的抽样调查有着很高的精确性，精确度甚至超过了对所有人进行调查时的97%。这是真的，不管是调查10万人还是1亿人，20次调查里有19都是这样。为什么会这样？原因很复杂，但是有一个比较简单的解释就是，当样本数量达到了某个值之后，我们从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样。认为样本选择的随机性比样本数量更重要，这种观点是非常有见地的。这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本，我们可以用较少的花费做出高精准度的推断。

--------------------------------
随机采样取得了巨大的成功，成为现代社会、现代测量领域的主心骨。但这只是一条捷径，是在不可收集和分析全部数据的情况下的选择，它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。

--------------------------------
只研究样本而不是整体，有利有弊：能更快更容易地发现问题，但不能回答事先未考虑到的问题。

--------------------------------
全数据模式，样本=总体

--------------------------------
采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候，它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变，但我们的方法和思维却没有跟上这种改变。然而，采样一直有一个被我们广泛承认却又总有意避开的缺陷，现在这个缺陷越来越难以忽视了。采样忽视了细节考察。虽然我们别无选择，只能利用采样分析法来进行考察，但是在很多领域，从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话，我们会收集所有的数据，即“样本=总体”。

--------------------------------
谷歌流感趋势预测并不是依赖于对随机样本的分析，而是分析了整个美国几十亿条互联网检索记录。分析整个数据库，而不是对一个样本进行分析，能够提高微观层面分析的准确性，甚至能够推测出某个特定城市的流感状况，而不只是一个州或是整个国家的情况。farecast的初始系统使用的样本包含12000个数据，所以取得了不错的预测结果。但是随着奥伦·埃齐奥尼不断添加更多的数据，预测的结果越来越准确。最终，farecast使用了每一条航线整整一年的价格数据来进行预测。埃齐奥尼说：“这只是一个暂时性的数据，随着你收集的数据越来越多，你的预测结果会越来越准确。”

--------------------------------
所以，我们现在经常会放弃样本分析这条捷径，选择收集全面而完整的数据。我们需要足够的数据处理和存储能力，也需要最先进的分析技术。同时，简单廉价的数据收集方法也很重要。过去，

--------------------------------
大数据分析法不只关注一个随机的样本。这里的“大”取的是相对意义而不是绝对意义，也就是说这是相对所有数据来说的。

--------------------------------
拥有全部或几乎全部的数据，我们就能够从不同的角度，更细致地观察研究数据的方方面面。

--------------------------------
因为大数据是建立在掌握所有数据，至少是尽可能多的数据的基础上的，所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面，我们都可以用大数据去论证新的假设。

--------------------------------
在越来越多的情况下，使用所有可获取的数据变得更为可能，但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确，与此同时，一些错误的数据也会混进数据库。然而，重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的，而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。对“小数据”而言，最基本、最重要的要求就是减少错误，保证质量。因为收集的信息量比较少，所以我们必须确保记录下来的数据尽量精确。无论是观察天体的位置还是观测显微镜下物体的大小，为了使结果更加准确，很多科学家都致力于优化测量的工具。在采样的时候，对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大，甚至有可能影响整个结果的准确性。

--------------------------------
假设你要测量一个葡萄园的温度，但是整个葡萄园只有一个温度测量仪，那你就必须确保这个测试仪是精确的而且能够一直工作。反过来，如果每100棵葡萄树就有一个测量仪，有些测试的数据可能会是错误的，也可能会更加混『乱』，但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据，而它提供的价值不仅能抵消掉错误数据造成的影响，还能提供更多的额外价值。现在想想增加读数频率的这个事情。如果每隔一分钟就测量一下温度，我们至少还能够保证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话，不仅读数可能出错，连时间先后都可能搞混掉。试想，如果信息在网络中流动，那么一条记录很可能在传输过程中被延迟，在其到达的时候已经没有意义了，甚至干脆在奔涌的信息洪流中彻底『迷』失。虽然我们得到的信息不再那么准确，但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算。在第一个例子里，我们为了获得更广泛的数据而牺牲了精确性，也因此看到了很多如若不然无法被关注到的细节。在第二个例子里，我们为了高频率而放弃了精确性，结果观察到了一些本可能被错过的变化。虽然如果我们能够下足够多的工夫，这些错误是可以避免的，但在很多情况下，与致力于避免错误相比，对错误的包容会带给我们更多好处。

--------------------------------
谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样，这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看，它之所以能比ibm的candide系统多利用成千上万的数据，是因为它接受了有错误的数据。2006年，谷歌发布的上万亿的语料库，就是来自于互联网的一些废弃内容。这就是“训练集”，可以正确地推算出英语词汇搭配在一起的可能性。

--------------------------------
彼得·诺维格（peter norvig），谷歌公司人工智能方面的专家，和他的同事在一篇题为《数据的非理性效果》（the unreasonable effectiveness of data）的文章中写道，“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”诺维格和他同事就指出，混杂是关键。 “从某种意义上，谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容，所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且，它也没有详细的人工纠错后的注解。但是，谷歌语料库是布朗语料库的好几百万倍大，这样的优势完全压倒了缺点。”

--------------------------------
相片分享网站flickr在2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注每张照片就没有意义了。难道真会有人为他的照片取名“像希特勒一样的猫”吗？恰恰相反，清楚的分类被更混『乱』却更灵活的机制所取代。这些机制才能适应改变着的世界。当我们上传照片到flickr网站的时候，我们会给照片添加标签。也就是说，我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签，所以它是没有标准、没有预先设定的排列和分类，也没有我们必须遵守的类别的。任何人都可以输入新的标签，标签内容事实上就成为网络资源的分类标准。标签被广泛地应用于facebook、博客等社交网络上。因为它们的存在，互联网上的资源变得更加容易找到，特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。

--------------------------------
大数据，改变人类探索世界的方法在小数据时代，我们会假想世界是怎样运作的，然后通过收集和分析数据来验证这种假想。在不久的将来，我们会在大数据的指导下探索世界，不再受限于各种假想。我们的研究始于数据，也因为数据我们发现了以前不曾发现的联系。

--------------------------------
无论是向公众开放还是将其锁在公司的保险库中，数据的价值都难以衡量。来看看2012年5月18日星期五发生的事吧。这一天，28岁的facebook创始人马克·扎克伯格（mark zuckerberg）在位于美国加利福尼亚州门洛帕克市的公司总部，象征性地敲响了纳斯达克的开盘钟。这家宣称全球约每十人中就有一人是其用户的全球最大社交网络公司，开启了其作为上市公司的征程。和很多新科技股的第一个上市交易日一样，公司股价立即上涨了11%，翻倍增长甚至已经近在眼前。然而就在这一天，怪事发生了。facebook的股价开始下跌，期间纳斯达克的电脑因出现技术故障曾暂停交易，但仍然于事无补，情况甚至更加恶化。感到异常的股票承销商在摩根士丹利的带领下，不得不支撑股价，最终以略高于发行价收盘。上市的前一晚，银行对facebook的定价是每股38美元，总估值1040亿美元（也就是说，大约是波音公司、通用汽车和戴尔电脑的市值之和）。那么事实上facebook价值多少呢？在2011年供投资者评估公司的审核账目中，facebook公布的资产为66亿美元，包括计算机硬件、专利和其他实物价值。那么facebook公司数据库中存储的大量信息，其账面价值是多少呢？零。它根本没有被计入其中，尽管除了数据，facebook几乎一文不值。这令人匪夷所思。加特纳市场研究公司（gartner）的副总裁道格·莱尼（doug laney）研究了facebook在ipo前一段时间内的数据，估算出facebook在2009年至2011年间收集了2.1万亿条“获利信息”，比如用户的“喜好”、发布的信息和评论等。与其ipo估值相比，这意味着每条信息（将其视为一个离散数据点）都有约4美分的价值。也就是说，每一个facebook用户的价值约为100美元，因为他们是facebook所收集信息的提供者。那么，如何解释facebook根据会计准则计算出的价值（约63亿美元）和最初的市场估值（1040亿美元）之间会产生如此巨大的差距呢？目前还没有很好的方法能解释这一点。然而人们普遍开始认为，通过查看公司“账面价值”（大部分是有形资产的价值）来确定企业价值的方法，已经不能充分反映公司的真正价值。事实上，账面价值与“市场价值”（即公司被买断是在股票市场上所获的价值）之间的差距在这几十年中一直在不断地扩大。美国参议院甚至在2000年举行了关于将现行财务报告模式现代化的听证会。现行财务报告模式始于20世纪30年代，当时信息类的企业几乎不存在。现行财务报表模式与现状的差异不仅会影响公司的资产负债表，如果不能正确评估企业的价值，还可能会给企业带来经营风险和市场波动。公司账面价值和市场价值之间的差额被记为“无形资产”。20世纪80年代中期，无形资产在美国上市公司市值中约占40%，而在2002年，这一数字已经增长为75%。无形资产早期仅包含品牌、人才和战略这些应计入正规金融会计制度的非有形资产部分。但渐渐地，公司所持有和使用的数据也渐渐纳入了无形资产的范畴。最终，这意味着目前还找不到一个有效的方法来计算数据的价值。facebook开盘当天，其正规金融资产与其未记录的无形资产之间相差了近1000亿美元，差距几乎是20倍！太可笑了。但是，随着企业找到资产负债表上记录数据资产价值的方法，这样的差距有一天也必将消除。

--------------------------------
投资者也开始注意到数据的潜在价值。拥有数据或能够轻松收集数据的公司，其股价会上涨；而其他不太幸运的公司，就只能眼看着自己的市值缩水。因为这种状况，数据并不要求其价值正式显示在资产负债表中。尽管做起来有困难，市场和投资者还是会给这些无形资产估价，所以facebook的股价在最初的几个月中一直摇摆不定。但是随着会计窘境和责任问题得到缓解，几乎可以肯定数据的价值将显示在企业的资产负债上，成为一个新的资产类别。

--------------------------------
数据、技术与思维的三足鼎立大数据，决定企业竞争力大数据成为许多公司竞争力的来源，从而使整个行业结构都改变了。当然，每个公司的情况各有不同。大公司和小公司最有可能成为赢家，而大部分中等规模的公司则可能无法在这次行业调整中尝到甜头。虽然像亚马逊和谷歌一样的行业领头羊会一直保持领先地位，但是和工业时代不一样，它们的企业竞争力并不是体现在庞大的生产规模上。已经拥有的技术设备固然很重要，但那也不是它们的核心竞争力，毕竟如今已经能够快速而廉价地进行大量的数据存储和处理了。公司可以根据实际需要调整它们的计算机技术力量，这样就把固定投入变成了可变投入，同时也削弱了大公司的技术储备规模的优势。大规模向小数据时代的赢家以及那些线下大公司（如沃尔玛、联邦快递、宝洁公司、雀巢公司、波音公司）提出了挑战，后者必须意识到大数据的威力然后有策略地收集和使用数据。同时，科技创业公司和新兴产业中的老牌企业也准备收集大量的数据。

--------------------------------
大数据的价值不再单纯来源于它的基本用途，而更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想：数据收集者必须告知个人，他们收集了哪些数据、作何用途，也必须在收集工作开始之前征得个人的同意。虽然这不是进行合法数据收集的唯一方式，“告知与许可”已经是世界各地执行隐私政策的共识性基础（虽然实际上很多的隐私声明都没有达到效果，但那是另一回事）。更重要的是，大数据时代，很多数据在收集的时候并无意用作其他用途，而最终却产生了很多创新性的用途。所以，公司无法告知个人尚未想到的用途，而个人亦无法同意这种尚是未知的用途。但是只要没有得到许可，任何包含个人信息的大数据分析都需要向个人征得同意。因此，如果谷歌要使用检索词预测流感的话，必须征得数亿用户的同意，这简直无法想象。就算没有技术障碍，又有哪个公司能负担得起这样的人力物力支出呢？

--------------------------------
除了纠结于数据的准确性、正确性、纯洁度和严格度之外，我们也应该容许一些不精确的存在。数据不可能是完全对或完全错的。当数据的规模以数量级增加时，这些混乱也就算不上问题了。事实上，它甚至可以是有好处的，因为当我们只想使用一小部分时，无须捕捉这么多的知识细节。又因为我们可以用更快更便宜的方式找到数据的相关性，并且效果往往更好，而不必努力去寻找因果关系。

--------------------------------
但是在日常情况下，知道“是什么”就已经足够了，不必非要弄清楚“为什么”。大数据的相关性将人们指向了比探讨因果关系更有前景的领域。

--------------------------------
没有什么是上天注定的，因为我们总能就手中的信息制定出相应的对策。大数据预测结果也并非铁定，而只是提供了一种可能性，也就是说，只要我们愿意，结局可以改写。我们可以判断出迎接未来的最佳方式，摇身变作未来的主人，正如莫里在海与风的广阔世界中乘风破浪一般。在过程中我们无须理解宇宙的奥秘或是去证明神的存在，因为大数据已经帮我们做好了。