Gartner公司数据中心研究部首席分析师张瑾:大数据对数据中心架构的新挑战

来源:互联网 发布:2016普通网络写手收入 编辑:程序博客网 时间:2024/04/27 19:08

Gartner公司数据中心研究部首席分析师张瑾:大数据对数据中心架构的新挑战

发表于2012-11-30 10:33772次阅读| 来源CSDN4 条评论| 作者康文博

Gartner张瑾大数据数据中心
摘要:Gartnet公司数据中心研究部首席分析师张瑾在“大数据对数据中心架构的新挑战”的主题演讲,他主要论述了三个问题:“大数据” 将把信息管理的各个方面的需求推向极限;目前大数据的技术正在净化过程中,新技术和新产品可以解决大数据的挑战;企业要迅速接受“大数据”的概念,因为其会是未来的...

 【CSDN现场报道】中国IT界技术盛会——Hadoop与大数据技术大会(Hadoop&BigData Technology Conference 2012,HBTC 2012)于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。本次大会以“大数据共享与开放技术”为主题,聚焦于Hadoop与大数据,力邀数十位国内外Hadoop及大数据技术应用的产学界人士和实践企业,探讨大数据技术生态系统的现状和发展趋势,并围绕Hadoop与大数据热点技术和应用实践进行深入解析。

Gartner公司数据中心研究部首席分析师张瑾在“大数据对数据中心架构的新挑战”这个话题上发表了主题演讲,主要回答了下面的3个问题:

1.大数据是什么?

他指出“大数据” 是个机遇,也是个挑战,它将把信息管理的各个方面的需求推向极限

2.哪些新技术和新产品可以解决大数据的挑战?

他提到了大数据的技术正在净化过程中,目前还没有真正的技术和产品的供应商。

3.企业应用状况如何? 应该如何开始迎接大数据?

  • 企业要迅速接受“大数据”的概念 – 未来的新利润增长点和竞争点
  • 认识到“大数据”不是在现有架构上新增应用,而是彻底改变现有架构避免陷入厂商的炒作陷阱 – 确立明确的需求和目标
  • 实施 “大数据” 前确定每一步的投资规模,设立里程碑和阶段目标
  • 了解其技术和商业不成熟性可能带来的失误和风险

Gartnet公司数据中心研究部首席分析师张瑾

以下为现场实录:

大数据对企业来说既是挑战也是机遇

为什么是挑战,从大数据的定义来说,大数据是用传统的技术方法无法解决的数据问题,所以说大数据对于企业来说是一个挑战。

大数据是一个大问题,有很多的方面,比如说数据的增长量的问题,实际上我想大家对这个问题都很熟悉。大数据问题不单单发生在我们常常说的互联网、多媒体等新的事物上的数据,有很多的问题是企业的传统应用所产生的数据,因为数据量的增长,现有的IT架构慢慢地不能满足其要求。也就是说大数据一半是新的业务,也有一半是解决传统业务的性能问题和管理数据的成本问题。

大数据新的应用是一个补充而不是去替换传统的应用。如今的数据是多种数据的混合体,也就是说它不再是说像传统的能够事先预知数据的格式和形态,数据交互的手段、协议。实际上很多的数据甚至于不是由企业本身所拥有的,而是从外界收集,这样传统的应用就施展不开了。

然而,许多企业到现在为止还不是很习惯于采用开源的解决方案,绝大部分的企业在大数据上的研究会遇到瓶颈。商用的版本不够丰富,支持还不够完善,这对企业应用来说就成了一个挑战和机遇并存的状态。

我们所说的大数据是传统的架构、传统的技术无法解决的数据的问题。但我想在这里特别指出的是,因为大数据的名字有“大”,所以很多人把重点集中在了数据的容量上,也就是大家都认为数据量是最大的问题。实际上大数据除了数据量的问题外,还会把信息管理的各项需求都推向极致。

最下面的这一层是大数据基本的问题,包括大数据量,多样性和高速,这也是传统的3V的概念。另外还加上了复杂性,复杂性包括了空间维、时间维等多种数据的复杂性。所以说这些问题实际上是大数据解决方案首先应该考虑的出发点。解决这四个方面的问题只是大数据解决方案的基础,这只是支撑起大数据的平台,在这之上还有很多的问题需要解决。

中间这一层还有很多的问题是关于访问权限的问题。

数据的敏感性是一个很基础的问题,但到了现在为止现有的技术和管理的手段还没有对数据的敏感性进行分析的优秀的解决方案。共享协议,数据将会以什么形式、以什么格式和时间点通过什么样的接口之间能实现这些共享和数据的交换,这是大数据的重点问题之一。数据交换的所有的方式都是以标准的协议来支持,因为在大数据的时代,数据的来源本身是多样性的,数据的格式甚至是无法管理的,还有很多的数据是来自于企业的外部,来自于互联网的提供商,到底如何通过这些协议自动化地将数据拿到数据仓库里面来,所以这种情况下数据的共享协议是一个很严重的问题。

热点数据,在大数据的时代也是跟传统的数据管理有了非常明显的差别。传统的数据管理会把单独的时间点作为一个热点数据,但是在大数据的时代,热点数据有可能是并行的多个。这些热点数据本身之间实际上是有可能有联系的。因为各种事件的相互触发所以很有可能这些热点数据同时出现,而且是相互关联的,甚至于有可能是可以预测的。所以说在大数据时代,热点数据的管理也是一个重要的话题。

在四个象限之上还有一个层面是有关质量管理的层面,质量管理应该也是说在传统的数据管理里非常重要的一个方面。这里面提到的有关的有效性、有效期限,这些都有明确的技术工具来解决的。但到现在为止,在这些方面,我们还是非常地依赖于传统的数据仓库的工具,而没有专门针对大数据的工具和技术能够解决这些问题。所以产生的结果是,现在产生的大数据的应用,一方面是受制于用户接受的程度本身,另外一方面也是受制于技术。现在来看,很多用户仍然必须要依赖于传统的数据管理的解决方案,而只能拿大数据的技术作为一个前台来做一些预处理。因为它缺少相应的技术和工具的支持。所以说大数据从12个象限的角度来说还是起步中的起步,因为里面还有一些非常基本的问题到现在还没有解决。大数据的形态有很多,仍然是非常雏形的阶段。数据的集成尤其是跨行业、跨不同的部门,跨各种技术能集成起来的机会还是非常少的。

更长远来讲,有很多新的商机可以出现,英国一家企业考虑采用一种新的基于大数据的模型,他们希望当一个顾客到来的时候,首先告诉商家他走进了商店,他拿起了一瓶洗发水,在货架里停留了十秒钟,通过之前的购买习惯,知道这个用户是不是从前没有买过这个牌子。如果没有买过这个牌子,实际上对这个产品有兴趣了,可以及时地发送短信到手机上,凭这条短信可以在产品上得到10%的优惠。这样的技术实际上可以大大地提高商店的价值,也可以提升厂商推广新产品的效率。但你可以预想到,里面实际上包含了很多基于大数据的技术,比如说移动的定位系统,包括了人脸识别和数据库,还可以非常迅速地能在10秒内把数据发送出来,可以对数据的计算和传输速度有非常高的要求的。如果能实现这些,对很多的企业都是有非常重要的意义的。但这个功能,还有很多的技术壁垒必须要突破才能实现。

所以我们认为到现在为止有很多新的形态可以出现。大数据IT架构的基本的特征,首先必须是横向扩展的,因为是单点的技术无法承受大数据的要求,既然把性能通过横向扩展的架构实现了,有没有必要在每个节点上花费太多的钱。它的高可用是通过软件设计和架构的设计来实现的,而不是通过传统的高性能、高可用性的、高短的硬件设备来实现的。另外架构是不共享的,避免了资源的征用和仲裁。现在的架构的技术应该说离大规模的商用和普及是有很大的距离的。

Hadoop是什么大家都非常清楚了,对Hadoop的市场潜力我们不要单单地认为是金融业,除了金融业以外的,应该说跨很多的行业都有可能对技术产生新的购买力。

而现在厂商还是处于相对初级的阶段,有很多新兴的公司可以提供Hadoop的发行版本。很多的存储厂商对Hadoop产生了极大的兴趣,目前他们的解决方案很大程度上是说把已经有的技术针对Hadoop或者是针对大数据的应用做了一定的定制化。所以很难说它是专门针对Hadoop或者是针对大数据的应用来开发的解决方案,应该说更多的是一些定制化。这些市场、这些产品和技术仍然处于一个刚刚开始的状态。

大数据和云的融合将是重大的趋势。云和大数据是互为因果的关系,没有云很多大数据就不存在,没有大数据很多云的价值是难以体现的。所以这两个技术是相辅相成的关系。现在我们也看到了一些基于云的Hadoop的应用,包括了MapReduce的应用。

在企业里,最开始听到大数据的问题是有关数据备份和数据保护方面的。大数据在颠覆着所有的数据保护的手段,这是一个非常现实的问题。这么大的容量传统的数据保护的方法根本不能运行。但是,如果真正仔细地看一下大数据本身,实际上有很多的大数据是不能备份的,90%的大数据都是不需要备份的。因为大数据本身的价值不是在大数据里面的,因为大数据提炼出价值之后很有可能的后台数据就没有必要再继续保留了。有很多大数据的解决方案在架构设计上已经充分地考虑了硬件容错的问题,所以很多的大数据系统实际上现在都是再一个没有备份的前提下在做运行。

数据访问、安全、隐私、法规、归档等,对数据管理来说一些非常重要的甚至于可以说是非常致命的一些需求,到现在仍然没有足够的解决方案,我们也是希望未来无论是厂商也好、用户也好能够重点看一下有关数据管理的问题,因为这将会是大数据解决方案中的一个可能最薄弱的环节了。

现在的应用状况,Web的应用把技术可行性进行了充分的论证,但在普遍的传统行业还是在非常小规模的实验性的应用的状况下,包括银行业、电信业、能源都有一些小规模的应用,实际上应该说不算是应用,更多像是一个演习,他们也在积累着相应的技术。业界关注的重点还是在技术实现上,这对人员和流程管理的关注上还不够,这将会产生严重的问题,我们认为到2015年将会产生1万个数据科学的职位。但实际只能满足1/3。也就是说在大数据的应用方面,人才短缺将是非常现实而急迫的问题。

对企业的建议首先是应该迅速接受大数据的概念,不单单是从解决现有的IT的问题的角度,更多的应该从未来的新的利润增长点和新的竞争点的角度,应该采用非常积极的态度。另外是避免进入厂商的炒作,要对此有警惕性。同时,需要在实施的阶段确定每一步的投资规模和设立里程碑,最终希望了解这些不成熟性必然会带来一部分的失误和风险的可能性,所以应对此有所被。从IT部门的角度来看,数据的价值应该说是由业务部门来产生的,所以必须要充分了解业务的需求。另外来说,根据这些需求新的大数据的需求重新规划并对预算做准备,同时业务部门内实际上也是需要做出相应的技术准备。

原创粉丝点击