大数据(big data)

来源:互联网 发布:基于nodejs的cms 编辑:程序博客网 时间:2024/04/30 12:38

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯

 

大数据的4个“V”,或者说特点有四个层面:
第一,数据体量巨大。从TB级别,跃升到PB级别;
第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。
第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。
最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。

 

最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB

 

Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。

 

IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。

 

大数据 和 数据挖掘 的区别?

数据挖掘需要人工智能、数据库、机器语言和统计分析知识等很多跨学科的知识。再者,数据挖掘的出现需要条件,
第一个条件:海量的数据;
第二个条件:计算机技术大数据量的处理能力;
第三个条件:计算机的存储与运算能力;
第四个条件:交叉学科的发展。大数据只是数据挖掘的出现的一个条件。

 

原创粉丝点击