SAP HANA之异军突起 (数据库各厂商发展历史.9. )

来源:互联网 发布:淘宝商品降权3天恢复 编辑:程序博客网 时间:2024/05/16 06:48

2012.11.27 iihero于CSDN,如若转载,请注明出处,谢谢。

HANA, 最近一直被热炒的数据库产品。从2011年6月27日由SAP公司正式提供给客户使用开始算起,其用户出现爆炸式增长。一方面源于它的初创性,它是一款完全基于内存的数据库,它又不同于一般的内存数据库(一般的内存模式数据库,都是小规模使用内存,用于嵌入式居多),第二方面,它突破性的将内完全基于内存的数据库成功的应用于大规模数据分析(或联机分析处理),其速度比普通的数据仓库系统要快若干个数据级。HANA的理念全新,完全放在内存中做分析,列式数据库的技术+内存计算的技术,无需索引,无需物化视图,无需调优,性能上更上一层楼。

下边就简要介绍一下这款数据库的基本情况:


1. SAP HANA的来历


HANA,应该起源于SAP创始人之一, Hasso Plattner博士领导下研发的原型系统: SanssouciDB,其根本目的,就是解决SAP企业信息系统中的海量业务数据处理和分析,构建未来企业内存数据库系统的蓝图,注意:这里提到的是企业内存数据库,最终让OLTP和OLAP完全统一在一个系统当中(笔者:完全基于内存,速度在这里都已经非常快,为什么要分离?)

SanssouciDB是专门为企业级应用量身定制折系统,对硬件、架构和存储都有相应的要求。


2. SAP HANA的发展


发展非常快,短短一年的时间,客户量爆炸式增长,也证明了企业内存数据库的市场需求是非常强烈的。特别是大型商业企业,他们的的海量业务数据用于分析时,采用高性能的实时分析系统可以节省很多时间,为正确及时的商业决策打下很好的基础,谁都明白,在正确决策的前提下,时间就是金钱。

到今年,全球有400多个HANA的用户,这个增长速度是以往历史上没有的。

SAP HANA不断发展演进,于2010年11月为一些精选用户提供服务,而今则按计划在全球范围全面上市。这预示着基于 SAP 内存计算技术的新一代商务分析、业务应用和 IT 简化时代的到来。与此同时,世界最大的综合贸易公司之一日本三井(Mitsui)公司 已经确定选用 SAP HANA。日本三井的加入,使得 SAP HANA 在世界范围内不断增长的客户群进一步壮大,越来越多的企业用户见证了这一技术的价值,其中包括柏林夏丽忒大学医学院(Charité - Universit?tsmedizin Berlin)、魅阳集团(The Charmer Sunbelt Group)、德国喜利得(Hilti) 、美敦力公司(Medtronic)和振锋企业(YOKE Industrial Corp)等。

SAP HANA 引入了全新的真正实时计算模式,使公司能够重新思考现有业务难题,从容应对新挑战。借助 SAP HANA,用户可以利用突破性的分析功能、前所未有的新应用程序以及焕然一新的现有 SAP 解决方案,以截然不同的方式满足各自的业务需求。例如,一家客户使用 SAP HANA 运行实时模拟,了解公司收益情况,并利用详细的收入和成本数据提高每个项目的利润。另一家客户为交通运输公司提供 IT 服务,通过使用 SAP HANA,可在一秒钟内搜索 3 亿 6 千万条交通记录,使出租汽车公司能够更高效地实时引导和调度出租车。另外,还有很多客户使用 SAP HANA 来提取 SAP 和非 SAP 数据。例如,一家世界100强企业主要使用 SAP HANA 处理公司内部以及来自制造商合作伙伴的非 SAP 应用程序数据源。


3. SAP HANA在中国


SAP HANA在中国的第一个客户,似乎是农夫山泉(年销售额近百亿), 于2011年9月22日,

SAP HANA实时计算的创新解决方案,与友商的数据集市解决方案相比,SAP HANA是全面的、更先进的内存数据库平台。经过对比测试,同一个脚本在 SAP HANA studio 中运行要比友商平台的返回结果快 200~300 倍,而且这种查询性能的提高对于 150 多张报表的表现都高度一致;在友商平台中要 24 小时才能执行完的存储过程和功能,HANA 只需要 37 秒;在对账流程上,HANA帮助农夫山泉整整缩短了 1 天的时间,这无疑是一种飞跃。SAP HANA 带来的额外益处是,通过将来自 SAP 系统和其他异构数据源的数据实时同步到 HANA,使农夫山泉摆脱了传统的 IT 维护和数据滞后问题,整个生产环境正呈现出更顺畅的运营、更准确的数据和更高效的性能。

中联重科,也成功的应用了SAP HANA数据库系统,成为机械行业第一家客户,除此以外,中国电网,联想集团也是重要的客户。


4. SAP HANA基本架构


总体架构 


此图片来源于:SAP HANA的PPT上剪辑下来的,主要包含了SAP HANA的应用架构和在应用中会涉及到一些周边软件环境。


HANA架构下的亲戚关系

  • IMCE Studio
    用于HANA的系统管理,以及信息建模(各种维度,KPI等)
  • ERP
    这里指的是一般的数据源,会从ERP过来过来的业务数据
  • BO BI4
    BO的BI 4.0平台,主要提供ETL的核心功能,源系统数据导入,删选/合并/格式化数据,再导入目标系统
  • Other Source System
    其他的数据源,由于BI的
  • In-Memory Computing Engine
    IMCE的核心组件部分)
  • Clients
    客户端的工具,用什么方式浏览工具(查看报表或者查询),或者用什么工具来展现数据(报表设计工具,是用Explorer还是用Web Intelligence, 或者用Crystal Report也是可以的,这里不多加描述)


和导入数据相关的


  • Modeling 工具中可以创建数据库表
  • Replication Agent(这里可能是使用SLT实时同步的情况下),可以安装在ERP中作为一个但单独的组件,监控应用层的数据库修改,然后可以同步到HANA的数据库
  • Data Service Designer用来创建数据的source,以及target, 可以做mapping,作为ETL的工具,比如创建定时的作业,这样可以定期的从source system抽数据,然后导入到HANA的数据库中

与IBM合作的硬件配置, 打造顶级HANA平台





运行环境


HANA是一个软硬件结合体,提供高性能的数据查询功能,用户可以直接对大量实时业务数据进行查询和分析,而不需要对业务数据进行建模、聚合等。用户拿到的是一个装有预配置软件的设备。至于HANA的云服务,只是对用户而言可以在不购买相关硬件的情况下享受HANA的高性能,而HANA云服务的背后还是需要更高性能的硬件支撑的。

软件方面,HANA的内存数据库(SAP In-Memory Database, IMDB)是其重要组成部分,包括数据库服务器(In-Memory Database Server)、建模工具(Studio)和客户端工具(ODBO、JDBC、ODBC、SQLDBC等)。HANA的计算引擎(Computing Engine)是其核心,负责解析并处理对大量数据的各类CRUDQ操作,支持SQL和MDX语句、SAP和non-SAP数据。比较显而易见的一点是,HANA计算引擎要快速处理用户复杂的查询请求,快速返回查询结果。 SAP内存数据库的数据并不是只在内存里,也会不停写到硬盘里,这就用到复制服务器Replication Server,包括Log-based,Trigger-based和ETL-based。这些复制服务器需要用到Sybase Replication Server、Sybase Replication Server Agent、Sybase ASE等,以及HANA Load Controller和BO Data Services。


操作系统方面操作系统方面操作系统方面操作系统方面,HANA目前只能运行在Suse Linux 企业版(SLES)上。 硬件方面硬件方面硬件方面硬件方面,SAP和多个硬件厂商合作生产支持HANA的高性能服务器,包括Dell R910、Fujitsu、HP DL580、IBM x3850等,以及和Cisco(Cisco Unified Computing System. UCS)等公司的合作。直观地说,这些机器的硬盘可能是数个600GB、转速10k rpm的硬盘组成RAID,内存可能有1T,文件系统可能是ext3或GPFS(IBM通用串行文件系统,General Parallel File System)。 和HANA类似,Oracle的Exadata也是一个预配置的软硬件结合体,提供高性能的数据读写操作。Exadata机器由Exadata数据库机器、Exadata数据库服务器、Exadata存储服务器以及高速网络接口等组成。InfiniBand端口的传输速度可以达到40Gb/秒。

HANA的快在于用大内存提供内存数据库,并在内存数据库里采用列式存储从而可以将更多的数据装进内存(列式存储更适合数据压缩)。

Exadata的快在于把大部分数据库操作push到硬件,通过高性能硬件提高数据查询速度,通过采用列式结构减少需要在存储和内存间移动的数据量,通过高速网络接口提供数据传输的效率。

HANA能做什么 HANA不是一个数据仓库,而是一个平台,在这个平台之上用户可以构建数据仓库或集市、报表和仪表盘等。 HANA能做的,首先是作为内存数据库,提供数据插入、修改和高效的查询功能。 其次,作为一个平台,在HANA之上,BO报表系统可以提供更好的用户体验 – 用户几乎不需要等待数据返回。

列了这么多,仍然需要知道HANA运行在什么环境下,答案是: Linux,再细化一点,标配是SuSE Linux  Enterprise Server。刚好,SuSE也是起源于德国 (有某种联系吗?:))

硬件上的合作方, 由于SAP并不生产硬件,同时HANA对硬件的要求不同于普通的商用数据库。 主要由 IBM、思科、富士通和戴尔提供的认证硬件,在国内,联想正在进入。


5. SAP旗下的数据库产品


如今,要说数据库产品,SAP旗下,可算是百花齐放。

     1. Sybase ASE, 行式数据库(OLTP为主),与其它传统数据库商家直接竞争

  2,OLAP领域享有盛名的Sybase IQ,开创了海量数据高效存储、高效分析的列式数据库技术,以更小的存储空间,更少的CPU资源,实现了更快的分析速度;

  3,数据流分析领域现在大家普遍关注和认可的CEP软件,不对数据进行实际存储,而关注于在数据的流动过程中实时做复杂分析及实时响应,在金融、证券、电信等行业存在多种实际而优秀的应用场景。

  4,小型数据库Sybase SQL Anywhere,以MB级直至TB级的资源空间来实现各种数据在嵌入式设备、移动设备上、小型设备上的存储、使用、简单分析,在思科的很多交换设备上都嵌有SAP SQL Anywhere,非常高效灵活地解决着这些设备级的数据库需求。

  5,SAP HANA的理念更是全新,完全放在内存中做分析,列式数据库的技术+内存计算的技术,无需索引,无需物化视图,无需调优,性能上更上一层楼。


而以下是SAP公司的数据库产品战略:
1,所有的Sybase数据库产品都将正式打上SAP的标签,如:Sybase IQ正式改为SAP Sybase IQServer, Sybase ESP(Event Stream Processor)正式改为SAP Sybase EventStream Processor,Sybase ASE正式改为SAP Sybase ASE……
2,以SAP HANA为核心的‘实时数据平台’
3,ASE作为SAP Business Suite的数据库平台正式GA
4,SAP Netweaver BW以HANA为平台正式GA
5,SAP HANA和IQ都将进一步支持以Hadoop为代表的‘大数据’的数据源
6,SAP Sybase SQL Anywhere将成为HANA的前端数据库
7,SAP Sybase PowerDesigner将成为HANA实时数据平台的模型设计管理工具
8,SAP Sybase ESP + Replication Server +EIM组合成为HANA实时数据平台的数据整合,实时数据采集,数据流动
9,SAP成立$1.55亿美元名为“SAPHANA实时基金”的创投,培育基于HANA实时数据平台的应用
10,$3.37亿美元的移植基金,鼓励应用移植到HANA平台

总的目标是改变现在企业IT的数据架构,使其简化并更好地支持‘大数据’等新的数据挑战!


参考资料: (If you need more)


http://soft.chinabyte.com/299/12108299.shtml

http://www.cnetnews.com.cn/2012/1120/2131535.shtml

<<In-Memory data management>>:  Hasso Plattner • Alexander Zeier  (内存数据管理)

http://blog.csdn.net/owen_008/article/details/6923033

http://cio.it168.com/a2011/1127/1279/000001279736.shtml (终结硬件时代 SAP谈HANA如何改变IT架构)

http://www.csdn.net/article/2012-04-05/2804233

http://soft.zdnet.com.cn/software_zone/2012/0416/2088713.shtml

http://blog.sina.com.cn/s/blog_6cf8fdd90101a4op.html

http://blog.sina.com.cn/s/blog_6cf8fdd90101a7yh.html

http://wenku.baidu.com/view/8e8bb07aa26925c52cc5bf39.html

http://liualex.com/archives/1776

原创粉丝点击