大数据及下一代基础设施

来源：互联网发布：软件著作权的技术特点编辑：程序博客网时间：2024/05/16 19:01

什么是大数据？

对于大数据的概念，这里给出的定义是超出现有数据库系统处理能力的数据。由于过快的数据产生速度，以及规模巨大的数据量，这就要求使用合适的系统来处理它们。

大数据的价值主要可以分为两种：数据分析、开发新产品。大数据分析能够揭露消费行为及趋势，如消费者如何受到同龄人的影响。对开发新产品而言，通过组合大量数据所透出的用户行为及群体关系，Facebook能够开发更具个性化的用户体验和独特广告系统。

大数据的主要特征可以用3V来表示，即数据量volume，数据产生速率velocity，数据的多样化variety。

（1）数据量volume：大规模的数据量能够使得数据分析更为有效。例如使用300个因素总能比使用6个因素预测的结果更为准确。大规模的数据量同时对传统的IT基础设施提出了挑战，因为它需要可扩展的存储，以及分布式的查询方法。
（2）数据产生速率velocity：随着互联网和移动互联网的飞速发展，数据量的产生速度也与日俱增。
（3）数据的多样化variery：这样多样性主要集中在互联网上的大量数据都是无结构的，这使得很难用传统的关系型数据库去有效处理。例如，来自社交网络的文本，图像数据，传感器数据等。

实时的数据分析
数据分析技术的发展经历了三个主要阶段，第一个阶段是操作型数据库，与此对应的是联机事务处理OLTP。其基本特征是顾客的原始数据传送到计算中心进行处理，并在很短的时间内给出处理结果。这个阶段的数据分析主要依靠人工来对历史数据进行分析。
第二个阶段是数据仓库技术的发展，数据仓库是决策支持系统和联系分析应用数据源的结构化数据环境。与此对应的是联机分析处理OLAP，其针对的是多维信息共享，并能够针对特定问题进行联机数据的访问和分析，并能产生表格或图形化的分析结果。OLAP可以用于分析当前数据从而改进商业业务质量。
第三个阶段是流计算（stream computing）的发展，即对实时信息进行分析处理。流计算要求能够在流数据实时变化的过程中实时的对其进行分析，捕捉到可能对用户有用的信息。与此对应的是实时分析处理OLAP，从而改进业务响应。而这也正是企业所最需要的。

当前关系型数据库存在的问题
（1）不能够处理非表格化的数据
（2）不能在硬件群中很好的发挥并行处理能力
（3）受网络延迟，硬盘寻道时间等影响
（4）可扩展性不好
（5）难以处理非关系型的数据源
（6）难以处理日益剧增的PB级别的数据

大数据，数据库的新面孔
大数据处理，从数据到信息再到知识。能够独立于体系结构，规避传统关系型数据库的影响，面向key值（数据以<Key,Value>的形式存储）查询，并且拥有更高的扩展能力及在线负载均衡能力。
大数据分析，要求能够对社交网络中用户互动产生的数据，传感器数据，及实时流数据等非结构化的数据进行分析处理，这也将成为下一代IT的前沿领域。

Hadoop

Hadoop是Apache组织的一个顶级项目，其也成为大数据领域的核心推动力量。Hadoop能够将廉价的硬件组成集群提供服务器级别的分布式处理能力。

Hadoop的核心：MapReduce
MapReduce是Google为了计算web搜索索引而开发的，而MapReduce也成为了当今绝大部分大数据处理的推动力量。除了Hadoop，你还能再MPP及NoSQL数据库MongoDB中发现MapReduce。
通过MapReduce能够将对一个数据集的查询拆分成许多小份，然后在多个节点上并行处理它们。MapReduce的过程可以概括为：Input > Map > Shuffle/Sort > Reduce > Output。

Hadoop则是MapReduce的一个开源实现——廉价的设备+Linux+Hadoop可以用很低的成本架设大规模计算集群。Hadoop是这一个开源项目总的生态系统的名称，其还包括很多其他的技术。

MapReduce主要进行分布式计算的工作，其背后依靠于数据存取技术，Hadoop提供了HDFS——Hadoop Distributed File System。HDFS和MapReduce都是高可靠的，即使Hadoop集群中出现了服务器错误，计算过程依然会继续。HDFS允许同一份数据分发到多个节点进行计算。并且，HDFS对所存储的数据没有限制，数据可以使无结构化的数据。

0 0