大数据(big data)究竟是什么?

来源:互联网 发布:tensorflow 1.4 编辑:程序博客网 时间:2024/04/30 15:52

“大数据”这个词最近两三年在IT界越来越热门,搞IT的如果嘴里不说起大数据,就好象是落了伍。大数据的意思不同人有不同的说法,比较实在含义是特指以Hadoop为代表的大型并发机群(Massively Parallel Processor)数据存储系统 。PB(1PB=1000TB)级在线数据(online data)存储在Hadoop里面,即被称作大数据。这几年,这个领域一直是个热门,即便在08, 09年这样的经济衰退期,美国风险投资对这个领域的投资都在一直增加,一批如Cloudera, MapR专门开发Hadoop系统的创业公司得以成长起来。那么大数据只是一时的时髦,还是一个真实的发展趋势呢?

 

海量数据的存储问题,在过去几十年主要由磁带来解决。磁带是一种离线(offline)存储方式,数据一旦备份到磁带里,要再被读取出来,就需要经过繁琐的人工过程,成本很高。在美国信用卡公司内部流传着这样一个说法,一个信用卡用户可以给信用卡公司打电话,说他发现1年前的一笔花费,比如100美元左右,不是他花的,要求信用卡公司进行调查,信用卡公司会答应进行调查。一天之后,信用卡公司会对这个用户说事情已经查清了,这确实是一个错误,他们会返回给用户这笔钱。实际上,信用卡公司在这一天之内什么调查都不会做,因为从磁带上读取这个用户的交易记录成本要比这笔钱高很多,信用卡公司索性就不调查了,返回给用户这笔钱就对了。这样,存在磁带里的数据实际上成了死数据。

 

10前,建立在关系型数据库(RMDB如Oracle, DB2)上的数据仓库系统,成为大规模数据在线存储和在线分析的主流。 RMDB能有效存储和分析TB级的数据(1TB=1000GB),  对于当时的绝大多数公司来说,这已经是够用了,相对于磁带来说,这是个巨大的进步。

 

最近几年,从大型网络公司到银行,收集数据的数量成快速增长趋势,一年要翻倍或翻几倍,而根据摩尔定律,单机CPU的处理能力要18个月才能翻一倍,所以以单机构架为基础的RMDB越来越跟不上快速增长的数据存储需求。所以基于大型并发机群(MPP)构架的存储系统必将成为数据存储系统的主流。以Hadoop为例,它可以使上千台PC合成为一个PB级数据存储器,其硬件成本远远低于同等级别的单机存储系统。而且Hadoop是开源免费软件系统,所以其软件成本也要远低于其它商业系统。Hadoop的诞生和发展为建立经济有效的云计算后台系统提供了可能。

 

Hadoop提供了便宜且巨量的在线数据存储系统,但是如何对Hadoop里的数据进行在线分析(OLAP)仍然是个有待解决的热点问题。大数据不仅指的是大数据的存储,更指的是对大数据实时的分析。如果对数据只能实现有效的存储,而不能实现有效的分析,那么数据的价值将大打折扣。博主将会在未来详细阐述大数据分析系统的最新动向(Big Data Analytics)。

原创粉丝点击