工业大数据漫谈2：大数据的特性

来源：互联网发布：天秤座适合的职业知乎编辑：程序博客网时间：2024/04/30 05:20

谈到大数据，很多人的第一反应就是非常大量的数据，其实不然，5P的数据也许不是大数据，1P的反而是大数据。也就是说，大数据并不意味着绝对的数据所占空间的巨大。

那么，怎么理解大数据的“大”呢？我觉得吴军博士在《智能时代》一书中对于“大”有一段精彩的描述：

英语里的large和big翻译成中文都是大的意思，因此很少有人关心为什么大数据使用"big data"这个英语词组，而不是"large data"。但是，在大数据被提出之前，很多通过收集和处理大量数据进行科学研究的论文，都采用large或者vast（海量）这两个英文单词，而不是big。比如我们常常可以看到论文的标题包含"largeScaled...""Vast Data""Large Amount..."等词组，但是很少用Big。

那么big，large和vast到底有什么差别呢。large和vast在程度上略有差别，后者可以看成是very large的意思。而big和它们的差别在于，big更强调的是相对小的大，是抽象意义上的大，而large和vast常常用于形容体量的大小。比如"large table"常常表示一张桌子的尺寸很大，而如果说"big table"其实是要表示这不是一张小桌子，真实尺寸是否很大倒不一定，但是这样的说法是要强调已经称得上大了，比较抽象。

通过上面的描述我们可以有一个认识，就是大数据的“大”是相对的，不是绝对的，不是说有一个标准，超过多少就是大数据，没超过就是小数据。那问题又来了，什么样的数据就是相对的“大”呢？这其实就是今天我们要探讨的，大数据的特点，也就是说，具备这些特点的数据就是所谓的大数据，不具备这些特点，你就是搞出来1个ZB的数据（小科普一下，1ZB=1024×1024×1024TB），也不算大数据。

说来说去，到底大数据有什么特性啊？你还说不说，不说走了啊。

哎，别急别急，这就开始说嘛。

先看看业界大牛们都怎么说，最流行的是下面的段子：

业界（其实就是IBM，IBM牛嘛）将大数据的特征归纳为4个“V”（大量Volume，多样性Variety，价值Value，及时性Velocity）：第一，数据体量巨大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）；第二，数据类型繁多。比如，网络日志、视频、图片、地理位置信息等等。第三，价值密度低，商业价值高。第四，处理速度快而且及时。

我最烦老外动不动就把个什么破事总结成4V、5S、3P、双飞啥的，咦，好像有奇怪的东西混进来了，不要关注这些细节，我们都是正能量，哈！有时候往往为了拼凑而丧失了本来的含义。

吴军博士就对此提出了自己的看法，他认为大数据的核心特点是：

★大数据最明显的特征是体量大。

★（大数据的特性中）其中最重要的含义是多维度。实际上，多维度的讲法更加简明而准确。

★大数据的第三个重要特征，就是它的全面性，或者说完备性。

看看，大牛们打起来啦吧，吴军博士直接把Value忽略了，Variety也不太认可，认为更重要的不是多样，而是多维度，Velocity直接就觉得不重要，反而觉得全面和完备是大数据更重要的特性。

再来看王坚博士的观点，王坚博士走的更远，直接把4V扔进了垃圾堆。王坚博士在《在线》一书中有如下描述：

我分享时说“大数据”这个名字叫错了，它没有反映出数据最本质的东西。

其实大数据很早以前就有，只是那时的“大”还没有意义。世界上最大的数据估计和互联网一点关系都没有，最大的数据估计存在于欧洲核子研究组织（CERN），那里的对撞机中运算的数据可能一辈子都算不完。

今天数据的意义并不在于有多“大”，真正有意思的是数据变得在线了，这恰恰是互联网的特点。所有东西都能在线这件事，远比“大”更能反映本质。

哇！不愧是阿里的技术委员会主席，直接否了大数据这个词了。

再来看看维克托·迈尔·舍恩伯格在《大数据时代》一书中是怎么描述大数据的：

大数据是人们在大规模数据的基础上可以做到的事情，而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知，创造新的价值的源泉；大数据还是改变市场、组织机构，以及“政府”与公民关系的方法。

好，看完了各路大神的论述，对大数据的特性是不是彻底混乱了？没关系，看我的乾坤大挪移神功！

我把大牛们的中心思想总结了一下，提出了大数据的特性理解：

1、数据在其应用领域相对较大。例如，当我们研究全国人民的姓氏时，13亿人的全部名称就是这个领域最大的数据了，也许在硬盘上只占几百M的空间，但是已经是相对较大的数据；

2、数据具备可操作性。即数据是否可以被计算机进行运算与操作，是否在互联网上倒不是必须的，因为一些数据的天然特性是不能存在于互联网中的。但是必须要通过计算机可处理，如果该数据不具备可操作性，一般也就谈不上我们理解的大数据；

3、数据具有一定程度的完整性、连续性，即可分析。假如我们手里有3000辆汽车的运行数据，但是都是断裂的、错误的，就很难进行分析和处理。

我个人认为如果数据具备以上几个特点，其实就可以说是我们一般人理解的大数据了。

0 0