大数据概述1

来源:互联网 发布:shadow web 黑暗网络 编辑:程序博客网 时间:2024/05/01 02:44

大数据概述第1部分

大数据概念:

1.      Volume 大量化

2.      VELOCITY 快速化

3.      VARIETY 多样化

4.      VALUE 价值化

 

数据量大

大数据摩尔定律:根据IDC估测,数据一直都在以每年50%的速度增长,也就是说每两年就增加一倍。

人类在最近两年产生的数据量相当于之前产生的全部数据量。

预计到2020年全球总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。

1Z = 1000E

1E = 1000P

1p = 1000T

1t = 1000G

 

数据类型繁多

大数据由结构化数据和非结构化数据组成

1.      10%的结构化数据,存储在数据库中

2.      90%的非结构化数据,它们与人类信息密切相关

 

处理速度快

从数据到生成的消耗,时间窗口非常小,可用于生成决策的时间非常少

1秒定律:只一点也是和传统的数据挖掘技术有着本质的不同

1分钟:新浪可以发送2万条微博

苹果可以下载4.1万次应用

 

价值密度低,商业价值高

 

大数据的影响

图灵获奖者,著名数据库专家Jim Gray博士观察并总结人类自古以来,在科学研究上先后经历了实验,理论,计算和数据四种范式。

 

大数据颠覆传统的思维方式:

—全样而非抽样

—效率而非精确

—相关而非因果

 

大数据概述第2部分

大数据应用

大数据无处不在,包括金融,汽车,零售,餐饮,电信,能源,政务,医疗,体育,娱乐等在内的社会各行各业都已经融入大数据的印记。

 

 

大数据的关键技术

技术层面

功能

数据采集

利用ETL工具将分布的,异构数据源中的数据如关系数据,平面数据文件等,抽取到临时中间层后进行清洗,转换,集成,最后加载到数据仓率或数据集市中,成为联机分析处理,数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析

数据存储和管理

利用分布式文件系统,数据仓库,关系数据库,NoSQL数据库,云数据库等,实现对结构化,半结构化和非结构化海量数据的存储管理

数据处理与分析

利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据处理和分析:对分析结果进行可视化呈现,帮助人们更好地理解数据,分析数据

数据隐私和安全

在从大数据挖掘中挖掘潜在的巨大商业价值和学术价值的同事,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

 

两大核心技术:分布式存储,分布式处理

GFS/HDFS

BigTable\HBase

NoSQL

NewSQL

 

大数据计算模式

大数据计算模式

解决问题

代表产品

批处理计算

针对大规模数据的批量处理

MapReduce ,Spark

流计算

针对流数据的实时计算

Strom,S4,Flume,Streams,Puma

图计算

针对大规模图机构数据处理

Pregel,GraphX,Giaph,Hama

查询分析计算

大规模数据的存储管理和插叙

Dremel Hive,Cassandra, Impala

 

大数据与云计算,物联网的关系

SaaS 从一个集中的系统部署软件,使之在一台本地计算机上运行的一个模型。由于是计量服务,SaaS允许出租一个应用程序,并计时收费

PaaS包括操作系统和围绕特定应用的必须的服务(开发云计算应用的基础)

Iaas 将基础设施计算资源和存储作为服务出租

云计算的关键计算:虚拟化,分布式存储,分布式计算,多租户

0 0
原创粉丝点击