驾驭大数据时代必修的技术课

来源：互联网发布：mac如何给iphone刷机编辑：程序博客网时间：2024/04/30 23:41

大数据中的“大”和“数据”哪个更重要

现在让我们先做一个小测验！在你继续阅读之前，请先停下片刻，并思考这个问题：术语“大数据”中，哪部分是最重要的？是（1）“大”，（2）“数据”，（3）二者同等重要，还是（4）都不重要？请花一分钟时间来思考这个问题，如果你已经锁定了自己的答案，请继续阅读后面的内容。同时，想象一下正在播放着“参赛者正在思考”音乐的游戏节目场景。

好了，既然你已经锁定了答案，让我们来看一下它是否正确。这个问题的答案应该选（4），其实“大”和“数据”都不是大数据中最重要的。根本而言，最重要的应该是企业如何来驾驭这些大数据。你的企业对大数据进行的分析，以及随之采取的业务改进措施才是最重要的。

无论如何，拥有大量的数据本身并不会增加任何价值。也许你拥有的数据比我拥有的数据多，可那又如何？事实上，拥有任何一个数据集，无论它们多大或者多小，其自身都不会带来任何价值。被收集来的数据如果从不使用，不会比存放在阁楼或地下室的垃圾更有价值。如果不投入具体的环境中并付诸使用，数据将毫无意义。对于任何大量或少量的大数据，大数据的威力体现在如何处理这些数据上。如何分析这些数据？基于这些洞察又将采取怎样的行动？如何利用这些数据来改变业务？

或许因为读了很多炒作大数据的文章，很多人开始相信正是由于大数据的大容量、高速和多样性，才使得它们比其他数据更具有优势且更重要。但这并不正确。正如我们将在本章后面“绝大多数大数据并不重要”一节中所讨论的，在很多大数据中，毫无价值或者价值很小的内容所占的比例要比以往数据源中高得多。当你把大数据精简至实际需要的容量时，它们将不再显得如此庞大。但这并不重要，因为不管它是保持原始大小，还是被处理后变得很小，容量并不重要，重要的是如何处理它。

大数据的风险

大数据会带来一些风险。其中一个风险是企业可能会被大数据压得不堪重负，从而停滞不前。正如我们将在第8章中讨论的，关键是要有合适的掌舵人来保证这些不会发生。你需要这些掌舵人去征服大数据，并处理各种问题。有了他们来处理问题，企业可以避免陷入泥沼而无法前行。

另一个风险是当收集如此庞大的大数据时，其成本的增长速度会快到令企业措手不及。和处理其他事物的方法一样，避免这种情况出现的方法是要保证以适当的步伐前进，使得企业能够及时跟上。没有必要从明天开始行动，一条不漏地收集所有的新数据。而应当立即去做的是，开始收集一些新数据源的样本并试图了解它们。可以使用这些初始样本进行一些实验分析，从而弄清楚数据源中哪些数据是重要的，以及如何使用它们。以样本数据为基础，企业已经做好了有效地处理更大规模数据源的准备。

对于很多大数据源，其最大的风险或许是隐私。如果世界上的每个人都是善良和诚实的，那么我们就没有必要去担心隐私问题了。但不是每个人都是善良和诚实的。事实上，进一步讲，还有很多并不善良和诚实的公司，甚至有的政府机构都不善良和诚实。这使得大数据存在一些潜在的风险。在处理大数据时，必须考虑到隐私问题，否则就无法完全发挥其潜能。如果没有适当的限制，大数据有可能会激发一股抗议风潮，以至于可能会被完全禁止。

回想一下最近受到广泛关注的一些安全性事件，例如，信用卡卡号和政府机密文件被窃取并发布在网上的泄密事件。因此毫不夸张地说，如果把数据储存在那里，总会有人试图去偷取它。一旦坏人拿到了这些数据，他们一定会利用这些数据去做坏事。已经有过几起倍受瞩目的案件，一些大公司由于其含糊不明的隐私政策而陷入麻烦之中。由于数据是以一种顾客不知情、不支持的方式被使用的，因此会产生冲突。随着大数据的爆炸式增长，必须同时对其使用自我约束和施加法律约束。

自我约束非常关键，毕竟它表明了行业对隐私保护的关注程度。每个行业都应该对自身进行约束，并且制定一些所有人都要遵守的法则。自愿接受的法则通常要比政府机构参与制定的法规效果更好一些，但约束力要更差一些，这是因为行业并不善于约束自身。

你为什么需要驾驭大数据

目前为止，很多企业在大数据上所做的事情还非常少。幸运的是，在2012年，如果你的企业还没重视大数据，你们落后得还不算很远，除非你是在电子商务这样的行业（在这些行业中，大数据分析已经被标准化了）。然而，随着势头的飞快增长，这种情况会很快改变。迄今为止，大部分企业所错过的仅仅是做领导者的机会。事实上，这对于很多企业来说并不是什么问题。今天，它们仍有机会迎头赶上。然而再过几年，如果一家企业还没有分析大数据，那么它在这场游戏中将很难再赶上别的企业。驾驭大数据最好的时机正是现在！

一家企业完全可以借助新的数据源来获取业务价值，而其竞争对手却没有做同样的事情，这种情况并不常见。这是如今大数据所带来的巨大商机，你将有机会超过你的竞争对手并击败它们。在未来几年内，我们将会继续看到通过大数据分析进行成功业务转型的案例。你将会从很多案例分析中看到，竞争对手是如何被猝不及防地抛进历史的尘埃中。在很多文章、会议以及其他的讨论中，已经有很多此类案例引人瞩目。一些案例正是来自于行业中那些迟钝、落后以及守旧的企业。在电子商务这样新兴而火爆的行业中，情况则完全两样。在第2章和第3章中，我们将会看到很多如何使用大数据的案例。

有效过滤大数据

大数据带来的最大挑战可能并不是你要对它做的分析工作，而是你为分析做的一系列准备，而是提取、转换和加载（ETL）流程。ETL是指获取原始大数据流，然后对其进行解析，并产生可用输出数据集的过程。从数据源中提取（E）数据，然后经过各种聚合、函数、组合等转换（T），使其变为可用数据。最终，数据会被加载（L）到对它进行具体分析的环境中。这就是ETL流程。

让我们再回头看一下之前讨论过的那个比喻：通过一个吸管吸水。当你从吸管中吸水的时候，你并不关心喝到你嘴里的水是来自于哪一部分。然而对大数据来说，你对收集数据流的哪一部分却非常在乎。有必要事先探索和理解整个数据流，只有这样你才能过滤出你想要的那部分信息。这也解释了为什么驾驭大数据需要付出如此之多的前期努力。

今天的大数据将不再是明天的大数据

正如我们在本章最开始所讨论的，大数据被公认的定义多少还有一些模糊。没有一个明确和广泛的定义，什么样的数据可以被视为大数据。相反地，大数据的定义是相对于当前可用的技术和资源而言的。结果，某一个企业或行业所认为的大数据，可能对于另一个企业或行业就不再是大数据。对于大的电子商务企业，它们眼里的大数据要比小厂商眼里的大数据“大”得多。

更重要的是，随着时间的推移，处理数据的工具和技术、原始存储空间和处理能力都会不断演进，大数据的界定也必然会发生变化。10年或20年之前，几百个领域，几百万个顾客的年家庭人口档案是非常庞大并难以管理的。而如今，这些数据可以存入一个U盘中，并可以使用低端的笔记本电脑对其进行分析。对大容量、高速度、高复杂度的界定会一直演变，对大数据也同样如此。

10年以前，零售业、电信业以及金融业的交易数据非常庞大，并且难以处理。事实上，在20世纪90年代后期之前，对于很多企业，这些数据都没有被用在分析和报表中。如今，这些数据已被认为是一项必要且基本的资产。事实上每一家公司，不论大小，都会使用到这些数据。

类似地，我们今天所惧怕的事情，几年之后将不会再如此可怕。来自网页的点击流数据也许在10年内便可以成为标准化的、易于处理的数据源。对于大多数企业，积极地处理每封电子邮件、每次顾客服务谈话、每条社交媒体评论都可能成为标准化的实践行为。每秒钟在搜索引擎中跟踪几百个指标对任何人来说都不再是什么费力的事情。

在我们正在驾驭这一代大数据的同时，其他一些更大的数据源正在逐渐登上历史舞台。它们会是什么样子？如今还没有人可以完全回答这个问题。然而，以下是一些关于当前数据源如何迅速升级到更大量级的观点。

　　想象一下网络浏览数据会从网页点击数据扩展到毫秒级的眼动和鼠标移动数据，因此用户上网冲浪的每一个微小细节都能够被捕捉到，而不只是点击数据。这是大数据的另一个层次。

　　想象一下视频游戏遥感数据将会升级到不仅仅只包含按键和移动数据。想象一下它同样会包括玩家的眼动、身体移动以及游戏场景中涉及的每个对象的位置和状态，而不仅仅是直接交互的对象。这使得数据变得非常庞大。

　　想象一下全球每家商店、分销商以及制造工厂中的每一件商品都拥有可用的RFID信息。想象一下那些可以每秒钟收集几十个指标，例如，温度、湿度、速度、加速度、压强等信息的芯片。这类数据的体积在今天看来是无法想象的。

　　想象一下将顾客服务或电话销售的每一次谈话都记录并转译为文本。再加上所有相关的电子邮件、在线聊天，以及社交网站或产品点评网站上的评论。现在，去解析、整合并分析所有这些文本吧，你的大脑是不是已经要爆炸了？

大数据会一直存在下去。尽管几年之后，今天我们觉得恐怖的大数据会变得不再那么吓人，但总会有令人恐怖的新数据源出现。企业需要持续地调整它们的方法和目标，以适应企业所涉及数据的变化。然而，如果企业还不具备处理大数据的能力，也便谈不上对数据处理方法的调整和升级。所以，你需要现在开始！

本文摘自《驾驭大数据》

下面必修课书目中给大家分享“驾驭大数据系列”图书。

Hadoop技术详解

HBase管理指南

HBase实战

HBase权威指南

Hive编程指南

Pig编程指南

MapReduce 2.0源码分析与编程实战

驾驭大数据

大数据分析：点“数”成金

0 0