工业大数据漫谈2:大数据的特性

来源:互联网 发布:天秤座适合的职业知乎 编辑:程序博客网 时间:2024/04/30 05:20

        谈到大数据,很多人的第一反应就是非常大量的数据,其实不然,5P的数据也许不是大数据,1P的反而是大数据。也就是说,大数据并不意味着绝对的数据所占空间的巨大。

        那么,怎么理解大数据的“大”呢?我觉得吴军博士在《智能时代》一书中对于“大”有一段精彩的描述:

        英语里的large和big翻译成中文都是大的意思,因此很少有人关心为什么大数据使用"big data"这个英语词组,而不是"large data"。但是,在大数据被提出之前,很多通过收集和处理大量数据进行科学研究的论文,都采用large或者vast(海量)这两个英文单词,而不是big。比如我们常常可以看到论文的标题包含"largeScaled...""Vast Data""Large Amount..."等词组,但是很少用Big。

        那么big,large和vast到底有什么差别呢。large和vast在程度上略有差别,后者可以看成是very large的意思。而big和它们的差别在于,big更强调的是相对小的大,是抽象意义上的大,而large和vast常常用于形容体量的大小。比如"large table"常常表示一张桌子的尺寸很大,而如果说"big table"其实是要表示这不是一张小桌子,真实尺寸是否很大倒不一定,但是这样的说法是要强调已经称得上大了,比较抽象。

        通过上面的描述我们可以有一个认识,就是大数据的“大”是相对的,不是绝对的,不是说有一个标准,超过多少就是大数据,没超过就是小数据。那问题又来了,什么样的数据就是相对的“大”呢?这其实就是今天我们要探讨的,大数据的特点,也就是说,具备这些特点的数据就是所谓的大数据,不具备这些特点,你就是搞出来1个ZB的数据(小科普一下,1ZB=1024×1024×1024TB),也不算大数据。

        说来说去,到底大数据有什么特性啊?你还说不说,不说走了啊。

        哎,别急别急,这就开始说嘛。

        先看看业界大牛们都怎么说,最流行的是下面的段子:

        业界(其实就是IBM,IBM牛嘛)将大数据的特征归纳为4个“V”(大量Volume,多样性Variety,价值Value,及时性Velocity):第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快而且及时。

        我最烦老外动不动就把个什么破事总结成4V、5S、3P、双飞啥的,咦,好像有奇怪的东西混进来了,不要关注这些细节,我们都是正能量,哈!有时候往往为了拼凑而丧失了本来的含义。

        吴军博士就对此提出了自己的看法,他认为大数据的核心特点是:

        ★大数据最明显的特征是体量大。

        ★(大数据的特性中)其中最重要的含义是多维度。实际上,多维度的讲法更加简明而准确。

        ★大数据的第三个重要特征,就是它的全面性,或者说完备性。

        看看,大牛们打起来啦吧,吴军博士直接把Value忽略了,Variety也不太认可,认为更重要的不是多样,而是多维度,Velocity直接就觉得不重要,反而觉得全面和完备是大数据更重要的特性。

        再来看王坚博士的观点,王坚博士走的更远,直接把4V扔进了垃圾堆。王坚博士在《在线》一书中有如下描述:

        我分享时说“大数据”这个名字叫错了,它没有反映出数据最本质的东西。

        其实大数据很早以前就有,只是那时的“大”还没有意义。世界上最大的数据估计和互联网一点关系都没有,最大的数据估计存在于欧洲核子研究组织(CERN),那里的对撞机中运算的数据可能一辈子都算不完。

        今天数据的意义并不在于有多“大”,真正有意思的是数据变得在线了,这恰恰是互联网的特点。所有东西都能在线这件事,远比“大”更能反映本质。

        哇!不愧是阿里的技术委员会主席,直接否了大数据这个词了。

        再来看看维克托·迈尔·舍恩伯格在《大数据时代》一书中是怎么描述大数据的:

        大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知,创造新的价值的源泉;大数据还是改变市场、组织机构,以及“政府”与公民关系的方法。

        好,看完了各路大神的论述,对大数据的特性是不是彻底混乱了?没关系,看我的乾坤大挪移神功!

        我把大牛们的中心思想总结了一下,提出了大数据的特性理解:

        1、数据在其应用领域相对较大。例如,当我们研究全国人民的姓氏时,13亿人的全部名称就是这个领域最大的数据了,也许在硬盘上只占几百M的空间,但是已经是相对较大的数据;

        2、数据具备可操作性。即数据是否可以被计算机进行运算与操作,是否在互联网上倒不是必须的,因为一些数据的天然特性是不能存在于互联网中的。但是必须要通过计算机可处理,如果该数据不具备可操作性,一般也就谈不上我们理解的大数据;

        3、数据具有一定程度的完整性、连续性,即可分析。假如我们手里有3000辆汽车的运行数据,但是都是断裂的、错误的,就很难进行分析和处理。

        我个人认为如果数据具备以上几个特点,其实就可以说是我们一般人理解的大数据了。
0 0
原创粉丝点击