大数据(big data)究竟是什么?
来源:互联网 发布:tensorflow 1.4 编辑:程序博客网 时间:2024/04/30 15:52
“大数据”这个词最近两三年在IT界越来越热门,搞IT的如果嘴里不说起大数据,就好象是落了伍。大数据的意思不同人有不同的说法,比较实在含义是特指以Hadoop为代表的大型并发机群(Massively Parallel Processor)数据存储系统 。PB(1PB=1000TB)级在线数据(online data)存储在Hadoop里面,即被称作大数据。这几年,这个领域一直是个热门,即便在08, 09年这样的经济衰退期,美国风险投资对这个领域的投资都在一直增加,一批如Cloudera, MapR专门开发Hadoop系统的创业公司得以成长起来。那么大数据只是一时的时髦,还是一个真实的发展趋势呢?
海量数据的存储问题,在过去几十年主要由磁带来解决。磁带是一种离线(offline)存储方式,数据一旦备份到磁带里,要再被读取出来,就需要经过繁琐的人工过程,成本很高。在美国信用卡公司内部流传着这样一个说法,一个信用卡用户可以给信用卡公司打电话,说他发现1年前的一笔花费,比如100美元左右,不是他花的,要求信用卡公司进行调查,信用卡公司会答应进行调查。一天之后,信用卡公司会对这个用户说事情已经查清了,这确实是一个错误,他们会返回给用户这笔钱。实际上,信用卡公司在这一天之内什么调查都不会做,因为从磁带上读取这个用户的交易记录成本要比这笔钱高很多,信用卡公司索性就不调查了,返回给用户这笔钱就对了。这样,存在磁带里的数据实际上成了死数据。
10前,建立在关系型数据库(RMDB如Oracle, DB2)上的数据仓库系统,成为大规模数据在线存储和在线分析的主流。 RMDB能有效存储和分析TB级的数据(1TB=1000GB),
最近几年,从大型网络公司到银行,收集数据的数量成快速增长趋势,一年要翻倍或翻几倍,而根据摩尔定律,单机CPU的处理能力要18个月才能翻一倍,所以以单机构架为基础的RMDB越来越跟不上快速增长的数据存储需求。所以基于大型并发机群(MPP)构架的存储系统必将成为数据存储系统的主流。以Hadoop为例,它可以使上千台PC合成为一个PB级数据存储器,其硬件成本远远低于同等级别的单机存储系统。而且Hadoop是开源免费软件系统,所以其软件成本也要远低于其它商业系统。Hadoop的诞生和发展为建立经济有效的云计算后台系统提供了可能。
Hadoop提供了便宜且巨量的在线数据存储系统,但是如何对Hadoop里的数据进行在线分析(OLAP)仍然是个有待解决的热点问题。大数据不仅指的是大数据的存储,更指的是对大数据实时的分析。如果对数据只能实现有效的存储,而不能实现有效的分析,那么数据的价值将大打折扣。博主将会在未来详细阐述大数据分析系统的最新动向(Big Data Analytics)。
- 大数据(big data)究竟是什么?
- 大数据究竟是什么?
- 大数据(big data)
- 大数据Big Data
- Big data大数据
- 什么是大数据(Big Data)?
- 大数据(Big Data)扫盲
- 《大数据时代(BIG DATA)》
- BIG DATA 大数据时代来临
- 大数据big data相关面试
- Storm - 大数据Big Data实时处理架构
- Spark - 大数据Big Data处理框架
- Storm - 大数据Big Data实时处理架构
- Spark - 大数据Big Data处理框架
- Storm - 大数据Big Data实时处理架构
- Awesome Big Data,了不起的大数据
- Spark - 大数据Big Data处理框架
- 大数据Big-data相关技术
- H.264中的NAL技术
- [gotoac]二分图最大匹配hungary & 二分图最佳完美匹配KM(邻接表&邻接矩阵) beta1
- osg学习示例之遇到问题五雪效编译无错调试中断
- CFileDialog文件选择对话框 和dwFlag风格解释
- mina的服务器与客户端的例子
- 大数据(big data)究竟是什么?
- 英语练习146 Don't be shy
- <h1>读取配置文件失败</h1>这通常意味着文件中有语法错误,请检查下面显示出的错误。<br /><br /><iframe src="show_config_errors.php" />
- vs2010环境下mfc+ffmpeg+opencv读取任意格式视频的播放器
- 测试CheckList
- [基础]编程小问题和Tips
- 为什么用java.math.BigDecimal
- 在Ubuntu上构建MiniDLNA服务器
- android应用程序中获取view的位置