大数据，且行且思

来源：互联网发布：网络诈骗怎么定罪编辑：程序博客网时间：2024/04/28 00:57

http://blog.csdn.net/szu030606/article/details/8558459

“大数据”概念于20世纪90年代被提出，最初只是对一些在一定时间内无法用传统方法进行抓取、管理和处理的数据的统称。随着时间的推移和科技的发展以及物联网、移动互联网、SNS的兴起，每年产生的数据量都以几何级数增长，《IDC Digital Universe in 2020》报告称全球产生的数据将在2020年达到40ZB（1ZB=10亿TB=100万PB）。在这急剧增长的数据面前，各种相关概念、技术层出不穷，一直不停地吸引大家的眼球。同时，大数据的内涵也发生了重大变化。让我们一起来思考一下：什么是大数据？能用它来解决什么问题？该如何应用大数据技术？目前有哪些难点？大数据的未来是什么？

什么是大数据？

业界通常用Volume、Variety、Value和Velocity（简称为“4V”，即数据体量巨大、数据类型繁多、价值密度低和处理速度快）四个特征来显著区分大数据与传统数据。目前业界可能更关注的是Volume（容量）和Velocity（速度），而忽略了数据价值以及数据体系建设，这种情况充其量只能称之为海量数据，引用淘宝网商业智能部资深总监车品觉的话来说就是“坐在数据金矿上啃馒头”。在传统的4V基础上，大数据还应该包含数据交换、互联、质量、安全等数据体系建设以及可以建立上层数据应用的整个生态圈。

大数据能解决什么问题？

大数据现象在物理学、生物学、环境生态学、自动控制等科学领域和军事、通信、金融等行业的存在已有些时日。从本质上来说，大数据主要解决的是海量数据存储、计算、挖掘、展现的问题，基于此之上可以诞生一系列应用或商业模式。

在目前阶段，解决的问题主要分为3类。

拓展传统的商业智能（BI）领域。以前针对大数据量的统计、关联分析、趋势预测由抽样变成全量分析，将数据回流到各种报表。
业务流程改进。对各种数据进行聚合分析，用来作为业务流程改进和考核的依据。
数据产品和商业应用。通过对已有数据或数据处理能力进行服务化或产品化包装，形成数据产品或数据服务。

该如何应用大数据技术？

大数据技术是一个整体，没有统一的解决方案，相关技术涉及到数据的传输、存储、计算、挖掘、展现、开发者平台6个部分。

作为数据处理的入口，数据传输和同步一般会采用基于时间线的实时同步和批量同步两种方案。基于时间线的实时同步，典型的系统有LinkedIn的Databus+Kafaka组合、淘宝开源的TimeTunnel；批量同步，典型的系统有Facebook开源的Scribe、Cloudera开源的Flume、Hadoop社区开源的Chukwa。
在数据量超过单机承载能力时，数据存储在扩展性和可用性上会面临较大挑战，一般会采用分布式存储。如基于内核层的Ceph、GlusterFS，用户层的有HDFS、GFS，业务层的HBase（列存储数据库）、MongoDB（文档数据库）、Cassandra（K/V型数据库）、Neo4j（图形数据库）等。
大数据技术的核心是基于存储的计算。计算一般分为离线计算、在线计算（流式计算、即时计算）。离线计算经过多年的积累和沉淀，已经成为数据处理的首选平台，承载了绝大多数的数据处理任务，典型的有Hadoop以及之上的Hive/Pig、阿里的ODPS；在线计算根据业务特征分为针对实时数据源进行固定规则计算的流式计算系统和针对非实时数据源进行灵活运算（无法预算）的即时计算系统。典型的流式计算系统有Storm，典型的即时计算系统有阿里的Garuda。
为了建立数据关系及数据模型，需要进行数据挖掘。为了进行海量数据的数据挖掘，一般会建立一个运行在分布式计算集群上的公用算法平台来进行各种数据处理，典型系统为基于Hadoop的Mahout、RHadoop。
为了展现海量数据结果的多样性、多角度、多层次，需要用到数据可视化相关技术，典型的系统是Facebook Insights。
数据处理涉及到的环节错综复杂、盘根错节，如何让大家易使用、保障所有系统的稳定运行，需要有一个平台来帮助开发者简化或完成数据处理的各个环节，例如提供数据处理、调度工作流系统、查看元数据、提供数据开发IDE等，典型的系统是Precog。

目前有哪些难点？

除了应对海量增长的数据带来的存储、计算、挖掘算法的技术难点之外（技术难点细节相信大家基本上都能在网上找到相应资料），其实还包括数据本身带来的业务难点。

在业务规模不大时，可以利用开源技术搭建起一整套数据处理系统。而随着业务增长，就需要根据业务特色按需修改或开发一些满足特定领域需求的系统。

在一些公司，业务急速增长和扩张，业务难点和技术难点同样突出，例如数据源源不断地产生，数据的质量、安全、成本该如何保障呢？前端业务库的元数据变更会给后端的数据处理造成什么后果？这些问题处理得不好很容易功亏一篑，让数据成为一堆大垃圾和高成本的企业负担。

针对业务难点，在保证数据质量方面，需要从数据源头进行规范，建立起一整套逻辑结构元数据和业务元数据系统来进行数据的约束、变更通知和业务基线保障（基线指根据业务方需要的时间来倒推数据生产完成时间）。基于此来进行数据的血缘分析（关联关系）、元数据查询、数据生产时间等功能；同时需要对数据的波动、变化做多样化的监控和报警规则管理，确保数据是及时、准确、可用的。

企业所拥有的数据可能成为获得竞争优势的关键，企业的数据和基础设施的安全也比以往任何时候都重要。因此从业务库到数据仓库的整个过程都需要考虑安全，包括数据传输、计算过程都需要进行认证、鉴权。鉴权的角度需要站在数据本身的角度去考虑。

数据在源源不断地增长，数据直接拥有成本也在随之提高，一些公司用来处理数据的服务器台数都要以万来计。因此，需要从大数据处理的全局角度来考虑如何从存储、计算上尽可能地降低成本，让模式可以持续。例如对数据采用冷热分离（冷数据存储到磁带上等）、按业务特征进行分层压缩（按列存储、存储数据差异等）、计算资源细粒度错峰化（资源进行细粒度分配或预估、按照业务时间进行波峰与波谷整合）、数据生命周期管理（比如进行过期垃圾数据清除）等手段来节省成本。

如何衡量数据价值？

我们有理由相信，不同数据中蕴含的价值是有差异的。如何衡量数据的价值可以从数据末端来进行考虑，可以如前面提到的那样建立一套元数据中心来管理整个企业的数据流转和关联。基于此可以分析每份结果表的引用关系链，采用业务价值/投资回报率（ROI）模式来衡量源头数据的价值，优先保障这些高价值源头表的数据质量。

大数据的未来？

大数据正在改变一些行业的运营发展规则，也诞生了一批数据服务公司，未来的大数据将会真真切切地落地在我们周围，很多企业不再需要建立一套如此复杂的数据处理系统，数据和计算能力都会变成一种资源按需使用。基于此，我们可以将大数据的未来分为三类。

第一类专注于做数据处理平台，也就是DaaS（Data as a Service），典型的公司有Precog。Precog公司提供海量数据存储和分析服务，该服务负责处理数据的抽取、转换、集成分析和可视化等过程，以及服务运行所基于的基础架构，提供一整套IDE和Quirrel查询分析语言。

第二类为利用自有数据进行深度整合产生的新业务和新的商业模式，这类公司本身就具有海量数据，典型的如Google的广告/搜索/地图/Glass/无人驾驶汽车、Facebook的Graph search、阿里的金融业务。

第三类为提供数据、计算以及数据市场三种服务的公司。这类公司既有海量数据，同时又拥有多年的数据处理技术积累，它们会将拥有的海量数据进行深度清洗、整合与关联，并建立一整套包括数据传输、存储、计算、挖掘、展现的技术服务，在此基础上会提供一个统一的数据开发平台完成用户认证、数据鉴权、工作流、监控告警、数据管理（元数据管理、数据质量管理、数据生命周期管理）、数据开发等工作。基于此提供一整套数据交换服务和App Engine。在此平台上，可以完成数据处理、交换以及开发数据应用App等功能。

总结

大数据相关的概念和技术会继续更广泛地冲击技术人员的眼球，我们需要做的是抓住问题的本质，尽可能理性地分析自己对数据的核心需求是什么、用它来解决什么问题、解决这些问题是不是一定要用复杂的分布式数据处理系统、所学的技术处于大数据技术的哪一层。

作者占超群，花名离哲，阿里巴巴集团数据平台与产品部数据仓库架构师，负责实时计算系统研发，低调的华丽践行者。拥有多年电信行业数据分析类项目开发管理经验，专注于实时计算/实时交互/数据服务化，爱好与分布式数据处理相关的技术。