大数据概述1

来源：互联网发布：shadow web 黑暗网络编辑：程序博客网时间：2024/05/01 02:44

大数据概述第1部分

大数据概念：

1. Volume 大量化

2. VELOCITY 快速化

3. VARIETY 多样化

4. VALUE 价值化

数据量大

大数据摩尔定律：根据IDC估测，数据一直都在以每年50%的速度增长，也就是说每两年就增加一倍。

人类在最近两年产生的数据量相当于之前产生的全部数据量。

预计到2020年全球总共拥有35ZB的数据量，相较于2010年，数据量将增长近30倍。

1Z = 1000E

1E = 1000P

1p = 1000T

1t = 1000G

数据类型繁多

大数据由结构化数据和非结构化数据组成

1. 10%的结构化数据，存储在数据库中

2. 90%的非结构化数据，它们与人类信息密切相关

处理速度快

从数据到生成的消耗，时间窗口非常小，可用于生成决策的时间非常少

1秒定律：只一点也是和传统的数据挖掘技术有着本质的不同

1分钟：新浪可以发送2万条微博

苹果可以下载4.1万次应用

价值密度低，商业价值高

大数据的影响

图灵获奖者，著名数据库专家Jim Gray博士观察并总结人类自古以来，在科学研究上先后经历了实验，理论，计算和数据四种范式。

大数据颠覆传统的思维方式：

—全样而非抽样

—效率而非精确

—相关而非因果

大数据概述第2部分

大数据应用

大数据无处不在，包括金融，汽车，零售，餐饮，电信，能源，政务，医疗，体育，娱乐等在内的社会各行各业都已经融入大数据的印记。

大数据的关键技术

技术层面

功能

数据采集

利用ETL工具将分布的，异构数据源中的数据如关系数据，平面数据文件等，抽取到临时中间层后进行清洗，转换，集成，最后加载到数据仓率或数据集市中，成为联机分析处理，数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入，进行实时处理分析

数据存储和管理

利用分布式文件系统，数据仓库，关系数据库，NoSQL数据库，云数据库等，实现对结构化，半结构化和非结构化海量数据的存储管理

数据处理与分析

利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据处理和分析：对分析结果进行可视化呈现，帮助人们更好地理解数据，分析数据

数据隐私和安全

在从大数据挖掘中挖掘潜在的巨大商业价值和学术价值的同事，构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全

两大核心技术：分布式存储，分布式处理

GFS/HDFS

BigTable\HBase

NoSQL

NewSQL

大数据计算模式

大数据计算模式

解决问题

代表产品

批处理计算

针对大规模数据的批量处理

MapReduce ,Spark

流计算

针对流数据的实时计算

Strom,S4,Flume,Streams,Puma

图计算

针对大规模图机构数据处理

Pregel,GraphX,Giaph,Hama

查询分析计算

大规模数据的存储管理和插叙

Dremel Hive,Cassandra, Impala

大数据与云计算，物联网的关系

SaaS 从一个集中的系统部署软件，使之在一台本地计算机上运行的一个模型。由于是计量服务，SaaS允许出租一个应用程序，并计时收费

PaaS包括操作系统和围绕特定应用的必须的服务（开发云计算应用的基础）

Iaas 将基础设施计算资源和存储作为服务出租

云计算的关键计算：虚拟化，分布式存储，分布式计算，多租户

0 0