话说大数据时代

来源：互联网发布：一辈子买不起房子知乎编辑：程序博客网时间：2024/04/26 04:54

首先，还是要从信息科技的发展说起。自从美国乔治·H·W·布什政府在1992年提出“信息高速公路”的科技发展战略之后，全球信息科技在美国信息科技的引领之下飞速发展，致使今天全球数据交换的容量越来越大。当然这项科技战略的初衷就是让美国人民能共享海量的数据资源。从目前科技发展的程度来看，美国政府的目的已经基本上达到了，当然美国人的科技战略也对全球科技起到了很好的推动作用，今天全世界人民可以随时随地通过互联网来访问各种各样的信息。

任何发展都会催生很多的社会需求，由于互联网的发展越来越快，人们传输数据的频率和传输的数据容量也比以前有了天翻覆地的变化。从上世纪互联网的开始发展到今天的云计算风行，让我们看到了信息科技所蕴含的巨大的潜力。自从有了互联网，人们的生活方式也发生了彻底的变化，从人与人之间的交流到商业贸易、银行业、企业管理、政府管理以及电子商务等都与互联网密不可分。由于各个行业都被互联网连接了起来，所以各种信息的传输就会产生大量的数据。举个例子，当互联网刚开始发展的时候，一台电脑的存储容量也就几十KB，而现在几乎每台PC的存储容量少则500GB、多则1TB；再说说现在的移动设备，自从乔布斯带领苹果公司开发出了iphone、ipad、ipod等智能设备之后，引领了整个移动智能领域的发展，随后开源版的Android智能手机也进入了人们的生活，以至于发展到今天Android智能设备已经占据了一半左右的智能设备市场（到目前为止，移动智能市场可以说是百花争艳，目前已经出现的移动操作系统大概有ios、android、symbian、Firefox OS、windows、sailfish、ubuntu 、chrome OS等几种），这些移动设备每台每天产生的数据流量少则几MB、多则几百MB、也就是说全球70亿人每天产生的数据流量少则达到32.596PB，多则1681.968PB，这么多的数据就是用海量来形容也不为过。据有关的数据统计显示，淘宝每天的交易数据可以达到50TB，这充分证明了我们已经走进了大数据时代。

1、大数据的概念：

什么是大数据呢？以上的分析可以说已经让我们对大数据有了基本的概念。维基百科对大数据的定义是指所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。常见总结的大数据的3V特点是：Volume、Velocity、Variety（海量资料、输入和处理速度、资料多样性），另有4V特点增加Veracity（真实性）。“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合，是基于云计算的数据处理与应用模式，通过数据的整合共享，交叉复用形成的智力资源和知识服务能力。大数据概念的形成以及对未来国与国之间科技竞争、企业与企业之间的竞争所产生的巨大发展潜力及影响，全球各国以及各大科技企业都制定了相关的大数据发展战略。

2大数据的发展：

2001年相关的报道及文献指出，META Group (now Gartner)的分析师Doug Laney将大数据所面临的机遇与挑战概括为“3V”模式，即volume (海量数据), velocity (高速输入输出), 和variety (多类型、多来源)，直到现在很多公司还在沿用此定义来描述大数据。在2012年，Gartner公司又重新定义了大数据，即high volume, highvelocity, 和high variety 。今天的大数据已经遍布了很多领域，包括感知网络、社交网络、大量的社交数据分析、互联网文字文本、互联网搜索索引、其他的复杂数据调查等等。

3大数据的处理：

3.1大数据处理的过程：

3.1.1 采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

3.1.2 导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

3.1.3统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

3.1.4挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

3.2大数据处理的方法：

3.2.1Bloom filter

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集

基本原理及要点：

对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。

还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些，因为还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。

举个例子我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。

注意这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。

扩展：Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射位是否全1表示元素在不在这个集合中。Countingbloom filter（CBF）将位数组中的每一位扩展为一个counter，从而支持了元素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF采用counter中的最小值来近似表示元素的出现频率。

3.2.2Hashing

适用范围：快速查找，删除的基本数据结构，通常需要总数据量可以放入内存

基本原理及要点：

hash函数选择，针对字符串，整数，排列，具体相应的hash方法。

碰撞处理，一种是open hashing，也称为拉链法；另一种就是closed hashing，也称开地址法，opened addressing。

扩展：d-left hashing中的d是多个的意思，我们先简化这个问题，看一看2-left hashing。2-left hashing指的是将一个哈希表分成长度相等的两半，分别叫做T1和T2，给T1和T2分别配备一个哈希函数，h1和h2。在存储一个新的key时，同时用两个哈希函数进行计算，得出两个地址h1[key]和h2[key]。这时需要检查T1中的h1[key]位置和T2中的h2[key]位置，哪一个位置已经存储的（有碰撞的）key比较多，然后将新key存储在负载少的位置。如果两边一样多，比如两个位置都为空或者都存储了一个key，就把新key 存储在左边的T1子表中，2-left也由此而来。在查找一个key时，必须进行两次hash，同时查找两个位置。

3.2.3bit-map

适用范围：可进行数据的快速查找，判重，删除，一般来说数据范围是int的10倍以下

基本原理及要点：使用bit数组来表示某些元素是否存在，比如8位电话号码

扩展：bloom filter可以看做是对bit-map的扩展

3.2.4堆

适用范围：海量数据前n大，并且n比较小，堆可以放入内存

基本原理及要点：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我们比较当前元素与最大堆里的最大元素，如果它小于最大元素，则应该替换那个最大元素。这样最后得到的n个元素就是最小的n个。适合大数据量，求前n小，n的大小比较小的情况，这样可以扫描一遍即可得到所有的前n元素，效率很高。

扩展：双堆，一个最大堆与一个最小堆结合，可以用来维护中位数。

3.2.5双层桶划分

适用范围：第k大，中位数，不重复或重复的数字

基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双层只是一个例子。

3.2.6数据库索引

适用范围：大数据量的增删改查

基本原理及要点：利用数据库的设计实现方法，对海量数据的增删改查进行处理。

3.2.7倒排索引(Inverted index)

适用范围：搜索引擎，关键字查询

基本原理及要点：为何叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

3.2.8外排序

适用范围：大数据的排序，去重

基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树

3.2.9trie树

适用范围：数据量大，重复多，但是数据种类小可以放入内存

基本原理及要点：实现方式，节点孩子的表示方式

扩展：压缩实现。

3.2.10分布式处理 mapreduce

适用范围：数据量大，但是数据种类小可以放入内存

基本原理及要点：将数据交给不同的机器去处理，数据划分，结果归约。

4大数据与云计算：

关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说，分别做一句话直白解释就是：云计算就是硬件资源的虚拟化；大数据就是海量数据的高效处理。

虽然上面的一句话解释不是非常的贴切，但是可以帮助大家简单的理解二者的区别。另外，如果做一个更形象的解释，云计算相当于我们的计算机和操作系统，将大量的硬件资源虚拟化之后再进行分配使用，在云计算领域目前的老大应该算是Amazon，可以说为云计算提供了商业化的标准，另外值得关注的还有VMware（其实从这一点可以帮助你理解云计算和虚拟化的关系），开源的云平台最有活力的就是Openstack了；

大数据相当于海量数据的“数据库”，而且通观大数据领域的发展也能看出，当前的大数据处理一直在向着近似于传统数据库体验的方向发展，Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群，把传统而昂贵的并行计算等概念一下就拉到了我们的面前，但是其不适合数据分析人员使用（因为MapReduce开发复杂），所以PigLatin和Hive出现了（分别是Yahoo！和facebook发起的项目，说到这补充一下，在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献），为我们带来了类SQL的操作，到这里操作方式像SQL了，但是处理效率很慢，绝对和传统的数据库的处理效率有天壤之别，所以人们又在想怎样在大数据处理上不只是操作方式类SQL，而处理速度也能“类SQL”，Google为我们带来了Dremel/PowerDrill等技术，Cloudera（Hadoop商业化最强的公司，Hadoop之父cutting就在这里负责技术领导）的Impala也出现了。

整体来看，未来的趋势是，云计算作为计算资源的底层，支撑着上层的大数据处理，而大数据的发展趋势是，实时交互式的查询效率和分析能力。

5大数据时代所面临的存储问题：

随着大数据应用的爆发性增长，它已经衍生出了自己独特的架构，而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的，就这个例子来说，我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。

从另一方面看，这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长，以及分析数据来源的多样化，此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点，他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。在这里，我们会讨论哪些与大数据存储基础设施相关的属性，看看它们如何迎接大数据的挑战。

5.1容量问题

这里所说的“大容量”通常可达到PB级的数据规模，因此，海量数据存储系统也一定要有相应等级的扩展能力。与此同时，存储系统的扩展一定要简便，可以通过增加模块或磁盘柜来增加容量，甚至不需要停机。基于这样的需求，客户现在越来越青睐Scale-out架构的存储。Scale-out集群结构的特点是每个节点除了具有一定的存储容量之外，内部还具备数据处理能力以及互联设备，与传统存储系统的烟囱式架构完全不同，Scale-out架构可以实现无缝平滑的扩展，避免存储孤岛。

“大数据”应用除了数据规模巨大之外，还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题，处理不当的话会影响到系统的扩展能力和性能，而传统的NAS系统就存在这一瓶颈。所幸的是，基于对象的存储架构就不存在这个问题，它可以在一个系统中管理十亿级别的文件数量，而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力，可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。

5.2延迟问题

“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。举个例子来说，网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析，并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度，因为响应延迟的结果是系统会推送“过期”的广告内容给客户。这种场景下，Scale-out架构的存储系统就可以发挥出优势，因为它的每一个节点都具有处理和互联组件，在增加容量的同时处理能力也可以同步增长。而基于对象的存储系统则能够支持并发的数据流，从而进一步提高数据吞吐量。

有很多“大数据”应用环境需要较高的IOPS性能，比如HPC高性能计算。此外，服务器虚拟化的普及也导致了对高IOPS的需求，正如它改变了传统IT环境一样。为了迎接这些挑战，各种模式的固态存储设备应运而生，小到简单的在服务器内部做高速缓存，大到全固态介质的可扩展存储系统等等都在蓬勃发展。

并发访问一旦企业认识到大数据分析应用的潜在价值，他们就会将更多的数据集纳入系统进行比较，同时让更多的人分享并使用这些数据。为了创造更多的商业价值，企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题，全局文件系统允许多个主机上的多个用户并发访问文件数据，而这些数据则可能存储在多个地点的多种不同类型的存储设备上。

5,3安全问题

某些特殊行业的应用，比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同，而且都是必须遵从的，但是，大数据分析往往需要多类数据相互参考，而在过去并不会有这种数据混合访问的情况，因此大数据应用也催生出一些新的、需要考虑的安全性问题。

5.4成本问题

“大”，也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说，成本控制是关键的问题。想控制成本，就意味着我们要让每一台设备都实现更高的“效率”，同时还要减少那些昂贵的部件。目前，像重复数据删除等技术已经进入到主存储市场，而且现在还可以处理更多的数据类型，这都可以为大数据存储应用带来更多的价值，提升存储效率。在数据量不断增长的环境中，通过减少后端存储的消耗，哪怕只是降低几个百分点，都能够获得明显的投资回报。此外，自动精简配置、快照和克隆技术的使用也可以提升存储的效率。

很多大数据存储系统都包括归档组件，尤其对那些需要分析历史数据或需要长期保存数据的机构来说，归档设备必不可少。从单位容量存储成本的角度看，磁带仍然是最经济的存储介质，事实上，在许多企业中，使用支持TB级大容量磁带的归档系统仍然是事实上的标准和惯例。

对成本控制影响最大的因素是那些商业化的硬件设备。因此，很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品，这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求，现在越来越多的存储产品都提供纯软件的形式，可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外，很多存储软件公司还在销售以软件产品为核心的软硬一体化装置，或者与硬件厂商结盟，推出合作型产品。

5.5数据的积累

许多大数据应用都会涉及到法规遵从问题，这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全，而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间，因为任何数据都是历史记录的一部分，而且数据的分析大都是基于时间段进行的。要实现长期的数据保存，就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

5.6灵活性

大数据存储系统的基础设施规模通常都很大，因此必须经过仔细设计，才能保证存储系统的灵活性，使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中，已经没有必要再做数据迁移了，因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用，就很难再调整了，因此它必须能够适应各种不同的应用类型和数据场景。

5.7应用感知

最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施，比如针对政府项目开发的系统，还有大型互联网服务商创造的专用服务器等。在主流存储系统领域，应用感知技术的使用越来越普遍，它也是改善系统效率和性能的重要手段，所以，应用感知技术也应该用在大数据存储环境里。

5.8小用户怎么办？

依赖大数据的不仅仅是那些特殊的大型用户群体，作为一种商业需求，小型企业未来也一定会应用到大数据。我们看到，有些存储厂商已经在开发一些小型的“大数据”存储系统，主要吸引那些对成本比较敏感的用户。

6大数据分析的数据平台架构：

6.1一种Hadoop多维分析平台的架构

整个架构由四大部分组成：数据采集模块、数据冗余模块、维度定义模块、并行分析模块。如图1所示。

数据采集模块采用了Cloudera的Flume，将海量的小日志文件进行高速

传输和合并，并能够确保数据的传输安全性。单个collector宕机之后，数据也不会丢失，并能将agent数据自动转移到其他的colllecter处理，不会影响整个采集系统的运行。如图2所示。

数据冗余模块不是必须的，但如果日志数据中没有足够的维度信息，或者需要比较频繁地增加维度，则需要定义数据冗余模块。通过冗余维度定义器定义需要冗余的维度信息和来源（数据库、文件、内存等），并指定扩展方式，将信息写入数据日志中。在海量数据下，数据冗余模块往往成为整个系统的瓶颈，建议使用一些比较快的内存NoSQL来冗余原始数据，并采用尽可能多的节点进行并行冗余；或者也完全可以在Hadoop中执行批量Map，进行数据格式的转化。

维度定义模块是面向业务用户的前端模块，用户通过可视化的定义器从数据日志中定义维度和度量，并能自动生成一种多维分析语言，同时可以使用可视化的分析器通过GUI执行刚刚定义好的多维分析命令。

并行分析模块接受用户提交的多维分析命令，并将通过核心模块将该命令解析为Map-Reduce，提交给Hadoop集群之后，生成报表供报表中心展示。

核心模块是将多维分析语言转化为MapReduce的解析器，读取用户定义的维度和度量，将用户的多维分析命令翻译成MapReduce程序。核心模块的具体逻辑如图3所示。

图3中根据JobConf参数进行Map和Reduce类的拼装并不复杂，难点是很多实际问题很难通过一个MapReduceJob解决，必须通过多个MapReduceJob组成工作流（WorkFlow），这里是最需要根据业务进行定制的部分。MapReduce的输出一般是统计分析的结果，数据量相较于输入的海量数据会小很多，这样就可以导入传统的数据报表产品中进行展现。

图3核心模块的逻辑

6.2瑞云大数据分析平台

瑞云是建立在智能计算基础上为用户提供数据、计算、知识服务的互联网大数据处理平台对互联网中巨量、多来源、异构数据进行采集、结构化、筛选、标引，从而得到可供应用业务系统分析计算的一次情报数据。帮助用户高效、低成本建立和运营基于互联网数据挖掘的情报应用，获得收益。

用户可在瑞云的输出结果基础上进行统计、对比、分析，从而实现诸如：舆情监测、商业预测、精准营销等应用业务。

瑞云作为基础平台，支持着昆仑纵横情报业务平台等应用服务产品，整个平台包含数数据网格、计算网格、知识网格三大部分。

6.2.1数据网格

数据网格服务通过网络API，依据用户定制需求，为用户提供来自互联网经标引可供机器计算的一次情报数据。

用户可以通过数据网格提供的标准接口，定制监测数据源，维护主题标引知识，即可获得互联网中来自指定信息源，并带有定制标签的实时数据。

6.2.2计算网格

瑞云计算网格主要用于实现对自然语言的语义识别以及信息发布形式、发布者行为的辨识。用户可通过API接口调用平台计算引擎，完成计算任务。

它由一系列统一规范和架构的计算引擎模块组成。模块共分为三类，分别为S引擎（语义分析引擎）、B引擎（行为分析引擎）和F引擎（形式分析引擎）。

S引擎：

S引擎基于自然语言识别技术，用于深度解构文本并分析内容，判别文本蕴含的真实含义。

B引擎：

B引擎负责分析发布者在特定时间和空间内的动作、轨迹和行文特点等行为特征，发现其潜在行为动机。

F引擎：

F引擎采用视觉模式识别技术，负责分析内容呈现的版式结构特征，识别发布者排版的意图。

6.2.3知识网格

知识网格服务为用户提供通用、行业知识，和知识交互、调用接口，支撑用户应用业务。

知识网格是瑞云平台存储结构化信息和人类认知模型的模块，如果把瑞云平台比作人类的大脑，那么知识网格就相当于人的认知经验和记忆。

瑞云知识网格，在10年运行的过程中通过机器学习和人机交互，不断学习互联网中的信息和人类的认知模型。经过10年运行，不断丰富、优化，使瑞云平台可以模拟复杂的人类思维、判断过程，支持对大数据的智能化处理。

6.3 Simple平台

6.3.1 SimpleTech - 大数据分析挖掘技术

在大数据处理平台SimplePlatform的基础上，提供了包括数据清洗、数据分析、数据挖掘、数据可视化在内的一系列针对大数据的数据分析和挖掘技术，用来支撑不同领域下的大数据处理应用。

6.3.2 SimpleCrawler（数据爬虫）

对论坛、新闻网站、博客、微博等多种网络信息源，定制目标主题，进行垂直、精准、持续有效地网络信息抓取。本技术的优势在于：根据某个特定主题的定向网络抓取、针对大任务的分布式并行抓取。

6.3.3 SimpleReliable（数据可靠性分析）

原始数据的质量经常良莠不齐，例如从网络中爬取的数据经常有一些垃圾、虚假、错误、过时的数据，而不可靠的数据往往会影响最终数据处理的准确性。本技术从数据来源的权威度、数据内容的可信特征、时效性等七个方面来计算数据的可靠度，筛选和鉴别那些不可靠的数据。

6.3.4 SimpleNLP（基于本体的自然语言处理技术）

许多数据都是以自然语言的形式存在的，例如客服中心的用户投诉/咨询内容，汽车论坛上的用户帖子，电子商务网站上的用户评论和咨询。要想从这些数据中挖掘出对企业有巨大价值的信息，就需要先从中理解出用户的准确意图。本技术已经有7年的研究及应用积累，使用了一种基于本体知识库的方法，可以从各种规范及不规范的自然语言描述中识别出用户的准确意图。具体包括上下文相关处理、歧义分析、多意图的复合查询处理、不完整概念补全、未登录术语识别、同义/全简称转换、发音/字形拼写纠错等。在电信、汽车等行业的理解准确率在90%以上。

6.3.5 SimpleEmotion（用户情绪识别技术）

许多用户数据中都蕴含了用户的某种情绪，反映了用户对企业产品/服务的态度和接受度。用户情绪的自动识别可以帮助企业更好的了解客户的满意度，例如对客服中心的用户问题进行投诉/咨询分类，将投诉严重的问题自动识别出来提供给企业，以及时处理。另外对汽车论坛的用户帖子进行情绪识别，分析出用户对某款汽车持何种态度，可以帮助企业分析出自己的口碑。本技术可以从用户数据中识别出细粒度的用户情绪，包括褒义还是贬义，具体的情绪是高兴、失望、愤怒或其他。在电信、汽车等行业的识别准确率在90%以上。

6.3.6 SimpleInterest（用户偏好分析技术）

无论是电信、汽车、电子商务还是其他行业的企业，营销都是吸引用户、扩大销量、提高收入的重要手段。电信运营商要将业务推销给感兴趣的用户，希望用户定制；电子商务网站希望将商品推销给感兴趣的用户，希望用户购买。要想做到“将合适的产品推荐给合适的用户”，准确理解每个用户的个性化偏好就显得尤为重要。本技术利用协同过滤、内容相似计算、图片相似计算等算法，通过综合分析海量用户的各种历史数据，从而计算出每个用户对每个产品的偏好。

6.3.7 SimpleVisualization（数据可视化技术）

在利用各种技术得到数据分析结果后，如何将各种数据分析结果以形象直观的方式进行展示，也是一个重要的需求，可以让企业客户快速发现数据中蕴含的规律特征。本技术提供了标签图、气泡图、雷达图、热力图、树形图、辐射图、趋势图等各种可视化方式，可以将数据分析结果以最佳的方式进行展现。

7大数据所存在的商业价值：

移动互联网时代，数据爆炸式增长后带来巨大的流量，运营商在收入上却没有得到相应的提升，还面临着数据流的附加值被互联网公司“吸”走的挑战，面临沦为管道的尴尬。在接下来的移动互联网的竞争中，运营商要怎么办?对于电信运营商而言，大流量、大数据带来更加严峻的考验，但是同时机遇往往与挑战并存，运营商手中所掌握的海量数据，也是产业链上其他环节望尘莫及的。另外，高效的信息分析能力，将帮助运营商在日益激烈的市场竞争中准确决策，深度挖掘流量和数据价值，从而摆脱“管道化”风险。

随着互联网、移动互联网、物联网、云计算的兴起以及移动智能终端的快速普及，运营商的网络获得了更完整的用户数据。例如在用户层面，除了常见的年龄、品牌、资费、入网渠道等基本信息外，数据还包括上网时间、上网地点、浏览内容偏好、各种应用的使用时间等；在终端层面，包括IMEI、MAC、终端品牌、终端类型、终端预装了哪些应用、终端的操作系统、终端的尺寸等。此外，还有诸如Web浏览记录、传感器信号、GPS跟踪和社交网络信息等数据。按《爆发》一书中的说法——“爆发展示的是一种思维方式，而不是预测方法。从物理学到人类社会大数据时代我们的行为确实可以预测，我们在享受一些免费服务的同时，出卖自己的喜好。”从这些庞大的用户数据中，可以分析出不同用户的行为习惯和消费喜好，并最终提高经营效率。

运营商已深刻认识到大数据的重要性，在企业内部已经利用大数据实现精确化营销和精细化运营。中国移动就通过对用户数据的MOU(平均用户通话时长)、业务收入等数据分析后，提供比较精准的模块支撑，极大地方便了营销人员的日常营销。如针对漫游费比较多的用户，就推荐漫游套餐；对经常用手机上网的用户，就推荐流量包。通过对用户行为的分析，提供IM服务，如飞信、飞聊等。在经营分析系统中，深度挖掘融合市场、集团、客户、客服、网络、财务数据，为业务和决策部门提供较完备的用户数据分析，使公司决策由“经验型”转为“分析型”，实现了精细化运营。

然而，这些是远远不够的。运营商虽然开始尝试对外提供数据服务，却停留在提供原始数据层面，这对于大数据是严重浪费。就海量数据，提供高附加值的数据分析服务，将数据封装为服务，形成可对外开放、可商业化的核心能力，实现商业模式的创新，才能使运营商真正挖掘到大数据这一金矿。以下至少有七种商业模式可以实现。

7.1数据存储空间出租

企业和个人有着海量信息存储的需求，只有将数据妥善存储，才有可能进一步挖掘其潜在价值。具体而言，这块业务模式又可以细分为针对个人文件存储和针对企业用户两大类。主要是通过易于使用的API，用户可以方便地将各种数据对象放在云端，然后再像使用水、电一样按用量收费。目前已有多个公司推出相应服务，如亚马逊、网易、诺基亚等。运营商也推出了相应的服务，如中国移动的彩云业务。

要提升差异化的竞争能力，运营商应该在数据分析上下工夫。对于个人文

件存储应在提升关系链管理、提升个人效率上下工夫；而在企业服务上，将其从简单的文件存储、分项逐步扩展到数据聚合平台，未来的盈利模式将有无限可能。

7.2客户关系管理

客户管理应用的目的是根据客户的属性(包括自然属性和行为属性)，从不同角度深层次分析客户、了解客户，以此增加新的客户、提高客户的忠诚度、降低客户流失率、提高客户消费等。

对中小客户来说，专门的CRM显然大而贵。不少中小商家将飞信作为初级CRM来使用。比如把老客户加到飞信群里，在群朋友圈里发布新产品预告、特价销售通知，完成售前售后服务等。中国移动不妨在此基础上，推出基于数据分析后的客户关系管理平台，按行业分类，针对不同的客户采取不同的促销活动和服务方式，提供更有针对性的服务，然后将提供线上支付的通道打通，形成闭环，打造一个实用的客户关系管理系统。

7.3企业经营决策指导

运营商可以利用用户数据，加以运用成熟的运营分析技术，有效提升企业的数据资源利用能力，让企业的决策更为准确，从而提高整体运营效率。简而言之，将运营商内部数据分析技术商用化，为企业提供决策依据。举个简单的例子，某商店卖牛奶，通过数据分析，知道在本店买了牛奶的顾客以后常常会再去另一店买包子，人数还不少，那么这家店就可以考虑与包子店合作，或直接在店里出售包子。

7.4个性化精准推荐

在运营商内部，根据用户喜好推荐各类业务或应用是常见的，比如应用商店软件推荐、IPTV视频节目推荐等，而通过关联算法、文本摘要抽取、情感分析等智能分析算法后，可以将之延伸到商用化服务，利用数据挖掘技术帮助客户进行精准营销，今后盈利可以来自于客户增值部分的分成。

以日常的“垃圾短信”为例，信息并不都是“垃圾”，因为收到的人并不需要而被视为垃圾。通过用户行为数据进行分析后，可以给需要的人发送需要的信息，这样“垃圾短信”就成了有价值的信息。在日本的麦当劳，用户在手机上下载优惠券，再去餐厅用运营商DoCoMo的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息，例如经常买什么汉堡，去哪个店消费，消费频次多少，然后精准推送优惠券给用户。

7.5建设本地化数据集市

我们都知道，数据是非常有价值的东西。因此，能够下载或者访问数据平台，自然而然也就成了商业需求。运营商可以通过建设数据集市，数据提供者可以将数据上传至平台供人免费下载，或者以一定的价格销售，让每个人都能找到自己需要的数据集。

运营商具有的全程全网、本地化优势，会使运营商所提供的平台，可以最大限度地覆盖本地服务、娱乐、教育和医疗等数据。典型的应用是中国移动“无线城市”，以“二维码+账号体系+LBS+支付+关系链”的闭环体系推动，带给本地化数据集市平台多元化的盈利模式。

7.6数据搜索

数据搜索是一个并不新鲜的应用，随着大数据时代的到来，实时性、全范围搜索的需求也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是将实时的数据处理与分析和广告联系起来，即实时广告业务和应用内移动广告的社交服务。

运营商掌握的用户网上行为信息，使得所获取的数据“具备更全面维度”，更具商业价值。典型应用如中国移动的“盘古搜索”。

7.7创新社会管理

对运营商来说，数据分析在政府服务市场上前景巨大。比如在大数据的帮助下，什么时间段、哪条路拥堵等问题，都可以通过分析得知。通过同一条路上多个用户手机位移的速度便可以判断当时的路况，为拥堵作出准确预警。美国已经使用大数据技术对历史性逮捕模式、发薪日、体育项目、降雨天气和假日等变量进行分析，从而优化警力配置。

在国内，运营商也可以在交通、应对突发灾害、维稳等工作中使大数据技术发挥更大的作用。

运营商处在一个数据交换中心的地位，在掌握用户行为方面具有先天的优势。作为信息技术的又一次变革，大数据的出现正在给技术进步和社会发展带来全新的方向，而谁掌握了这一方向，谁就可能成功。对于运营商来说，在数据处理分析上，需要转型的不仅是技巧和法律问题，更需要转变思维方式，以商业化角度思考大数据营销。

8大数据与开源软件：

企业内的数据爆炸和从中挖掘有价值的商业信息引发了企业对大数据解决方案的重大兴趣，随之也带动了相关市场的繁荣，不仅是传统的数据库、BI、存储、服务器厂商从中看到了商机，开源操作系统也从中发现了新的商业机会，SUSE就是其中之一。市场上颇受关注的SAP HANA的底层操作系统选用的正是SUSE的Linux产品。

“SAP HANA采用的是软件集成，即从最底层的操作系统到其上的HANA Database、HANA Studio等软件进行深度整合，支持HANA运行的底层操作系统正是SUSE的Linux Enterprise。”SUSE公司全球业务拓展高级总监 Naji Almahmoud表示，他同时还是SUSE 公司的SAP全球联盟高级总监，负责与SAP的合作。

“大数据需要大量的计算资源，大数据环境的配置也常常是一项复杂的任务。许多软件应用，包括操作系统、数据库和分析工具在内，必须联合工作。所以，一体机或者集成化自然成为很多大数据解决方案的首选。”他说。

据Naji Almahmoud介绍，SAP HANA中应用了当今诸多先进技术，包括压缩、用RAM代替磁盘、平行管理（管理Intel CPU）、基于列的数据库、数据库之库以及扩展机制（不共享集群）。同时，SAPHANA系统引入众多高性能硬件。这些对于操作系统提出了很高要求，特别是其可扩展性和访问大内存及多CPU的能力。为此SUSE与SAP在研发过程中不间断地联合设计讨论将在内核的内存处理、CPU调度和文件系统方面进一步优化，同时，还在其中内置了高可用性(HA)组件，以保护关键业务应用；将更新周期延长为18个月，从而为企业应用的开发、部署提供了一个相对稳定的IT环境。最终，SUSELinux Enterprise Server实现了可最多支持4096个处理器和64TB RAM，可支持SAP HANA很好地扩展。

“尽管部署HANA这样的一体化解决方案，企业可能牺牲了一些灵活性，但快速提供大数据解决方案的能力可能更具吸引力。因为一体化解决方案针对大数据存储和分析进行预先配置和优化，并且开箱即用，加快并且简化了部署HANA的过程。”NajiAlmahmoud告诉本报记者。

SUSE与SAP在HANA上的合作，证明了SUSE Linux Enterprise Server是大数据部署的一个很好的平台，也让SUSE感受到了自己在大数据时代的商业机会。

Naji Almahmoud表示，作为操作系统供应商，SUSE的关注焦点在于技术、性能和可靠性，SUSE Linux Enterprise Server可在I/O、内存和计算密集型工作负载方面进行性能增调，系统性能也可利用对CPU、内存、存储和网络性能的细密控制进行优化，从而更好地支持大数据相关软件的运行。另外，SUSE将在这些方面以及文件系统和存储方面持续改进。SUSE有一个非常强大的合作伙伴计划，很多合作伙伴都是当今大数据市场上的先锋，其解决方案在SUSE Linux Enterprise Serve之上进行集成。

据悉，目前，除了SAP之外，SUSE还与Teradata、Cloudera等在大数据方面有着紧密的合作。比如，Teradata的全部解决方案中全面选用了SUSE Linux，其中包括其大数据一体机 Aster Big AnalyticsAppliance，该产品在SUSELinux Enterprise之上集成了Hadoop、Teradata的Aster。

实际上，据记者了解，目前市场非常流行的大数据处理平台Hadoop本身就是开源软件，它与Linux同属于开源基金Apache旗下，因此，市场上广泛存在不少基于开源Linux的Hadoop解决方案，这也有望进一步带动Linux的普及，有利于Linux的各版本分发商发现新的商机。

参考文献：

http://bigdata.datatang.com/platform/list-7.html

http://www.hylanda.com/menu.php?mid=14

http://www.programmer.com.cn/7617/

http://duanple.blog.163.com/blog/static/7097176720091026458369/

http://www.zhihu.com/question/20540118

http://soft.ccw.com.cn/czxt/htm2013/20130508_1007558.shtml

1 0