IBM BigInsights新增独门绝技:全面支持Hadoop On Power!

来源:互联网 发布:javascript截取字符串 编辑:程序博客网 时间:2024/05/04 18:19

前段时间BigInsights V4.1发布时,首次将强大的Hadoop扩展至Power平台之上,但仅限于产品中的开源组件,如HDFS/YARN/HBASE/HIVE等。如今最新产品更新包的发布使得BigInsights中的其他IBM增加组件:BigSQL、BigR等,也可以轻松运行在Power之上。

BigInsights V4.1最新补丁包增强功能包括:

众多开源组件:IBM对开源社区的的持续投入和大力支持,终究会反馈到产品中,如目前BigInsights中更新了如下重要组件:Spark更新至1.4.1,Ambari 更新至2.1, Hadoop版本更新至2.7.1。

IBM BigSQL: IBM持续在企业级SQL on Hadoop上的投入,使得Big SQL功能不断完善,本次更新包括:可以和Yarn集成提高了管理性;BigSQL的函数库实现了K-Means分类算法和朴素贝叶斯算法,进一步增强了SQL分析能力;增强了组件的高可用,现在对所有组件都可支持HA,如下图显示了在拥有6个管理节点的大型集群(超过100个节点)中,BigSQL 管理服务BigSQL Head Node和Big SQL Scheduler的HA配置:

biginsights

Big R: 新增机器学习算法的分布式实现,包括:决策树、随机森林和逐步回归算法,让熟悉R的数据科学家更方便的将R应用扩展至Hadoop集群。

文本分析:增强了文本分析能力,包括将文本分析结果导出成CSV格式,直接通过BigSheet查看结果及增加了文本分析项目快照功能。

BigInsights on Power:所有组件均支持运行在Power平台之上。

在所有的增强中,最重要的是最后一点,即全面支持Power,这甚至可以成为BigInsights的独门绝技!为什么可以这么说? 我们先来看看Power 8 中的众多技术升级中,给在Power平台上运行Hadoop带来的好处:

CPU的增强:Power 8 的CPU并行处理能力大幅增强,每通道可支持12 核CPU,每核支持 8 线程(比Power7提高2倍),并可动态切换SMT1到SMT8的8种模式,非常适合支持混合型的工作负载,能更好的支持各种高阶数据分析任务,如:分群算法、分类算法、特征提取任务以及文本分析、自然语义分析任务等。

缓存系统的增强:Power8的内存比Power7增加了2.3 倍, CPU内部的多级缓存也增强了3倍,这可以让类似于HBASE这样对缓存敏感的计算任务执行得更快。

IO系统的增强:Power 8 集成了第三代PCIe技术,带来高达192GB/秒的I/O带宽,比Power7 提高了2.4倍,可以让MapReduce作业无需任何优化即可将效率提升2倍以上,更适合于大数据量数据加载和处理。

对Java性能的优化:POWER系统专门对 IBM Java技术进行了优化, 相同的任务运行在Power上比运行在同等配置的X86环境快24倍之多。

那么,这些Power平台的增强到底对运行Hadoop有什么意义呢?我们以BigInsights中带有的、常见Hadoop组件HBASE为例进行分析:

HBASE是Hadoop中主流的NOSQL DB技术的一种,可以提供低延时的Key-Value数据的查询和处理;HBASE以表、行的形式存储数据,数据表被分割为多个数据分区,每个数据分区由物理上独立的Region Server组件进行管理;类似于MapRduce作业,HBASE在进行数据操作时需要大量IO开销,通常这些会成为HBase的性能瓶颈,在如下表格中总结了HBASE的主要数据操作对平台资源的要求:

biginsights

通过以上表格可以看出,HBASE的性能通常局限在缓存、内存、磁盘,而Power8针对这些方面的优化,可以极大改善HBASE应用的性能!在对比测试中,在同等条件下的Power和X86大数据平台分别运行Terasort测试,Power比X86平台快出2.5倍!

biginsights

当然,对于使用Power运行Hadoop, 很多人会关心成本问题,我们先看看某客户的大数据平台迁移项目(从X86迁移到Power8),为达到同样的处理能力,X86和Power所需要的资源配置分别如下:

biginsights
biginsights

在该客户环境的实际使用结果中,POWER8 提供了原X86平台相同的计算能力,却使用了更少的资源,主要包括:

只使用了1/5数量的服务器 --> 减少了管理成本;

只使用了1/5数量的CPU内核 --> 减少商业Hadoop软件的成本;

只使用了1/5 的机房空间 --> 减少基础设施成本。

因此,从以上的例子可以看出,使用Power搭建大数据平台,不一定会比使用X86贵哟! 特别在很多客户已经具有Power设备、可对设备进行利旧使用的情况下,使用Power的成本反而会更低:使用BigInsights在Power环境上搭建大数据平台,前5个服务器节点的软件授权完全免费! 如果您的企业刚好有可以利用的Power设备,何不马上试试!

0 0
原创粉丝点击