IBM BigInsights新增独门绝技:全面支持Hadoop On Power!
来源:互联网 发布:javascript截取字符串 编辑:程序博客网 时间:2024/05/04 18:19
前段时间BigInsights V4.1发布时,首次将强大的Hadoop扩展至Power平台之上,但仅限于产品中的开源组件,如HDFS/YARN/HBASE/HIVE等。如今最新产品更新包的发布使得BigInsights中的其他IBM增加组件:BigSQL、BigR等,也可以轻松运行在Power之上。
BigInsights V4.1最新补丁包增强功能包括:
众多开源组件:IBM对开源社区的的持续投入和大力支持,终究会反馈到产品中,如目前BigInsights中更新了如下重要组件:Spark更新至1.4.1,Ambari 更新至2.1, Hadoop版本更新至2.7.1。
IBM BigSQL: IBM持续在企业级SQL on Hadoop上的投入,使得Big SQL功能不断完善,本次更新包括:可以和Yarn集成提高了管理性;BigSQL的函数库实现了K-Means分类算法和朴素贝叶斯算法,进一步增强了SQL分析能力;增强了组件的高可用,现在对所有组件都可支持HA,如下图显示了在拥有6个管理节点的大型集群(超过100个节点)中,BigSQL 管理服务BigSQL Head Node和Big SQL Scheduler的HA配置:
Big R: 新增机器学习算法的分布式实现,包括:决策树、随机森林和逐步回归算法,让熟悉R的数据科学家更方便的将R应用扩展至Hadoop集群。
文本分析:增强了文本分析能力,包括将文本分析结果导出成CSV格式,直接通过BigSheet查看结果及增加了文本分析项目快照功能。
BigInsights on Power:所有组件均支持运行在Power平台之上。
在所有的增强中,最重要的是最后一点,即全面支持Power,这甚至可以成为BigInsights的独门绝技!为什么可以这么说? 我们先来看看Power 8 中的众多技术升级中,给在Power平台上运行Hadoop带来的好处:
CPU的增强:Power 8 的CPU并行处理能力大幅增强,每通道可支持12 核CPU,每核支持 8 线程(比Power7提高2倍),并可动态切换SMT1到SMT8的8种模式,非常适合支持混合型的工作负载,能更好的支持各种高阶数据分析任务,如:分群算法、分类算法、特征提取任务以及文本分析、自然语义分析任务等。
缓存系统的增强:Power8的内存比Power7增加了2.3 倍, CPU内部的多级缓存也增强了3倍,这可以让类似于HBASE这样对缓存敏感的计算任务执行得更快。
IO系统的增强:Power 8 集成了第三代PCIe技术,带来高达192GB/秒的I/O带宽,比Power7 提高了2.4倍,可以让MapReduce作业无需任何优化即可将效率提升2倍以上,更适合于大数据量数据加载和处理。
对Java性能的优化:POWER系统专门对 IBM Java技术进行了优化, 相同的任务运行在Power上比运行在同等配置的X86环境快24倍之多。
那么,这些Power平台的增强到底对运行Hadoop有什么意义呢?我们以BigInsights中带有的、常见Hadoop组件HBASE为例进行分析:
HBASE是Hadoop中主流的NOSQL DB技术的一种,可以提供低延时的Key-Value数据的查询和处理;HBASE以表、行的形式存储数据,数据表被分割为多个数据分区,每个数据分区由物理上独立的Region Server组件进行管理;类似于MapRduce作业,HBASE在进行数据操作时需要大量IO开销,通常这些会成为HBase的性能瓶颈,在如下表格中总结了HBASE的主要数据操作对平台资源的要求:
通过以上表格可以看出,HBASE的性能通常局限在缓存、内存、磁盘,而Power8针对这些方面的优化,可以极大改善HBASE应用的性能!在对比测试中,在同等条件下的Power和X86大数据平台分别运行Terasort测试,Power比X86平台快出2.5倍!
当然,对于使用Power运行Hadoop, 很多人会关心成本问题,我们先看看某客户的大数据平台迁移项目(从X86迁移到Power8),为达到同样的处理能力,X86和Power所需要的资源配置分别如下:
在该客户环境的实际使用结果中,POWER8 提供了原X86平台相同的计算能力,却使用了更少的资源,主要包括:
只使用了1/5数量的服务器 --> 减少了管理成本;
只使用了1/5数量的CPU内核 --> 减少商业Hadoop软件的成本;
只使用了1/5 的机房空间 --> 减少基础设施成本。
因此,从以上的例子可以看出,使用Power搭建大数据平台,不一定会比使用X86贵哟! 特别在很多客户已经具有Power设备、可对设备进行利旧使用的情况下,使用Power的成本反而会更低:使用BigInsights在Power环境上搭建大数据平台,前5个服务器节点的软件授权完全免费! 如果您的企业刚好有可以利用的Power设备,何不马上试试!
- IBM BigInsights新增独门绝技:全面支持Hadoop On Power!
- IBM BigInsights 4.1 发布了 ,对Hadoop的支持更加深入!
- 独门绝技:一招克死所有病毒
- 独门安装卸载绝技:巧用Rundll32
- IBM Linux on Power正式对外开放
- IBM BigInsights安装中遇到的问题
- IBM BigInsights 3.0.0.2 集群环境搭建
- IBM linux on power 开发者技术大会记录
- IBM power 四大技术完美支持三大应用
- 文本数据分析神器—— IBM BigInsights Text Analytics
- BigInsights -- 基于 Hadoop 的数据分析平台【基于db2数据库】
- IBM Juices Hadoop With Java On Tesla GPUs
- 解析IBM SQL-on-Hadoop的优化思路
- IBM Power 550
- 阿里独门绝技:如何运用H.265降低30%的视频传输成本
- 看阿里独门绝技:H.265如何降低视频存储和传输成本
- 预算为0如何拉用户?类类教你5个独门绝技,并说说一些陷阱!
- 预算为0如何拉用户?类类教你5个独门绝技,并说说一些陷阱!
- 欢迎使用CSDN-markdown编辑器
- .NET类库Newtonsoft.Json的各json与对之应的Model记录
- HDU 1106
- iOS 视频相关 Apple Demo
- C语言里的延时函数
- IBM BigInsights新增独门绝技:全面支持Hadoop On Power!
- 魔都 3 年,从程序员到 CTO
- android添加ssh(openssh)
- 学习笔记——用两个队列实现一个栈
- 安卓学习笔记---使用AndroidStudio出现的问题错误(错误: -source 1.6 中不支持 diamond 运算符 (请使用 -source 7 或更高版本以启用 diamond 运算)
- rand、srand生成随机数
- CSS 多类选择器
- System.InvalidOperationException
- DFS生成n个数的排列数