数据仓库之Teradata数据仓库平台的构建经验

来源:互联网 发布:国内经济数据库 编辑:程序博客网 时间:2024/05/03 08:50

也是从别处转来的。原址如下:

http://www.itpub.net/thread-1619774-1-1.html

 

再次转载一篇Teradata的文章,个人觉得说的很好!
Teradata行业资深顾问 李鹏   
大家好!很荣幸有机会跟大家分享Teradata数据仓库平台的构建经验。正式演讲之前想先问个问题,有了解Teradata的同志请举手!非常少。第二个问题,听说过啤酒和尿布故事的同志请举手,啤酒和尿布的故事就是来源于Teradata的老客户——沃尔玛。下面介绍Teradata数据仓库的构建方案。
    整个演讲分为四个议题:第一,Teradata公司的介绍;第二,Teradata平台为什么会13年连续获得Gartner评比第一名;第三,客户选择Teradata的理由;第四,Teradata的经验和平台对税务行业的可借鉴意义。
    首先用几个数字介绍一下Teradata:第一,Teradata在企业级数据仓库的领导地位是第一;第二,Teradata有30年数字仓库服务的历史;第三,Teradata数据仓库平台连续13年被Gartner排名第一;第四,全球企业级的数据仓库都是Teradata的客户,这里包括了100%全球顶级的电信公司,66%的全球顶级航空公司,83%全球顶级的运输公司,70%全球顶级的零售公司,60%全球顶级的商业银行,它们都是Teradata的历史客户。Teradata所提供的服务包括三个方面:专业的咨询和实施服务;应用服务;数据仓库平台。
    大家看到的这个片子描述两个概念:第一,Teradata30年领导了整个企业级数据仓库的发展。第二,连续13年被Gartner评为总体性能评测第一名。大家现在看到的官方评测报告,这个报告从两个不同的方面:战略的完整性和执行能力,来评估平台的总体性能。
    第三,通过Teradata的历史客户来阐述大家对Teradata的印象。
    第一个客户就是易贝,整合十几个PD的数据量;第二个是大家熟悉的戴尔公司;第三个是英特尔,固特异,Cisco,可口可乐,GE,三星等等,这些大家耳熟能详的生产型企业客户都是Teradata的历史客户。
    第二类是在零售业,包括家乐福,沃尔玛,7-11等等,都是Teradata的历史客户。
    在银行业,有工商银行,中行,交通银行,农行等等。举个例子,从中行取款机提出一笔款时,会给您发一个短信,或者您在国外消费时会提示您,后台用的系统就是Teradata的数据仓库系统。
    第二介绍一下Teradata为什么13年连续排名第一。
    数据仓库和商业智能系统的演进分为五个阶段,第一阶段是报表;第二阶段是分析;第三阶段是预测;第四阶段是连续的更新和流程的互动;第五阶段是主动的事件。现以税务为例说明每个阶段做什么事情。
    第一阶段,报表,例如会计核算属于第一个阶段。第二个阶段是分析,分析发生的事情,比如征管状况分析,属于典型的分析阶段。第三阶段是预测,例如税收收入预测,明年的税收收入计划,预测明年税收收入是多少。第四个阶段是运营的支撑,特别强调一下,说到管理决策和商业智能系统,通常意义被认为是服务管理层,或者后台分析人员。实际上商业智能应用于一线的业务人员时,会产生更大的价值。税管员如果给出一个正确的建议,起到什么效果?最后一个是事件,比如发生的增值税抵扣事件,会不会有欺诈?如果有欺诈数据仓库平台会给出什么建议?这是典型的按照不同税务应用场景描述整体的数据仓库,在商业智能应用发展的五个阶段。
    按照这五个阶段,对于数据仓库的平台需要提出什么要求?归纳一下分别是数据量和查询效率。或许有时不到1T的时候速度很快,但容量上到10T时就跟牛车一样,跑不出任何数据来,数据量和查询效率有兼容性问题。另外一个是并行处理能力,税务将来会有很大的数据量,什么样的后台数据仓库平台足以支撑?全国税务干部有70万人,这么大的范围做一个商业智能支撑对能力的要求是什么?再者,因为商业智能会回答随机性的问题,也许会做征管分析,也许要做挖掘,这种随机查询跟通常的税务系统不同,它的数据吞吐量是不透明的。
    下面就是管理成本,到底需要多少DBA可以把数据仓库平台管理起来呢?这是第三点。
    另外就是混合负载。基于这样一个税务平台,用户这么多,核心业务怎么保证?领导去查一个关键点的业务,怎么保证它的效率和其他任务有优先级的管理。
    最后一个环节就是数据温度的管理,大家可能对这个词很陌生,这里先埋一个伏笔。
    按照数据仓库和商业智能发展的五个阶段对数据仓库平台提出了若干项要求。Teradata数据仓库平台是怎样以其独有的特点和优势连续蝉联了13年的Gartner评比的第一名?
    第一个优势,就是数据及时性的保障能力。给大家举个例子,现在这个动画是一个典型的战略型的管理决策分析系统,特点是什么呢?核心系统负责工数,通过数据的整合过程,数据会被整合到数据仓库的平台里,传统意义上会服务于管理层的战略用户,按照Teradata的提法,我们倡导“动态企业级数据仓库”的概念,要让一线的业务人员也能享受到数据仓库带来的好处和优势。
    第二,Teradata平台的并行处理能力。上面这个系统是传统意义上的数据库,中间有一个瓶颈,在这个横线上就是瓶颈。Teradata运行运算平台是完全并行的,下面有四条线,每条线的执行过程是平行的。靠这样的机制最大化系统的吞吐量,这里指数据的IO吞吐量,使整个系统的资源占用最小。这样会使整个数据仓库的运算能力最大程度的并行,而不至于因为某个硬盘,或者某一个网络带宽不够而导致出现一个瓶颈的情况。
    第三,我们倡导(斜率为一的线性扩展能力)。重点解释一下,第一点,现在Teradata平台的体系,最大集群可以扩展到4096个节点,大家可以想象4096个服务器会是什么样的状况。这个线性为一的扩展能力表现在哪里?第一是硬件平台的扩展线性度,同一个数据库的查询,数据库硬件增加一倍时,响应时间减少一半,硬件的扩展会明显减少响应的时间。第二点,数据量增长线性度,数据量增长一倍时,性能会下降一半。第三点,并发用户的增长线性度,当整个用户的并发度增加一倍时,响应时间也随之下降。
    整个Teradata表现出来的是“跑不死”,在用户量比较少的情况下,CPU可以利用到100%,用户变化上来之后它会均分CPU资源和吞吐资源。
    第四,混合负载的管理能力。可以这样理解,随着业务系统和业务用户的增多,不同的系统的优先级不一样。例如税管员,税管员用数据仓库的数据来识别是否有欺诈时,我们称之为关键业务。保证关键业务的正常运行要有一个混合负载的管理能力。
    第五,整个低成本的管理,你把通常传统意义上的数据库管理忘掉80%以后再去做Teradata的数据库的管理员就足够了,可见管理性是很高的。
    最后一点,数据温度的管理。Teradata数据库根据进行的数据访问频度不同,会存储在不同的物理资源上。举个例子,比如经常访问的会放在硬盘的外道,长期不访的放在磁盘的里道,这是一种模式。另外一种模式,就是跨物理存储设备的数据温度的管理。大家可能听说过类似的快设备叫固态硬盘,SSB,高速硬盘,还有低速硬盘。Teradata能做到什么程度?大家可以看这个例子,我们把12个月的申报数据放在固态硬盘里,每秒钟吞吐可以达到近半个G;对1-2年的申报数据,我们把它放在高速硬盘里,而长期不用的数据放在大容量的低速硬盘上。
    下面再介绍第三个议题,就是客户选择Teradata的六大理由。第一,便捷的可扩展性,通过扩展的硬件可以使性能成倍的上升,硬件增加一倍,性能也就提升一倍;第二,优异的察觉性能,几乎不需要人的干预就可以很好的应用;第三,成熟的产品;30年被认证;全球上千家用户已经部署了Teradata的数据仓库产品,包括全球数据量最大的11家PD级用户,都是Teradata的历史客户;另外还有低廉的管理成本。综合这六大因素,客户选择我们Teradata平台作为他们首选的数据仓库的支撑环境。
    最后一个议题,Teradata整体的服务经验和平台,其对税务行业的可借鉴意义。首先按照Teradata的行业经验来看,我们在世界上分别实施了四个国家级税务局,分别是美国国家税务局,澳大利亚国家税务局,南非税务局和埃及税务局,还包括了十几个美国州税务管理系统。
    以美国国家税务局为例,美国国家税务局申报量每年是2.2亿笔,11万文档,税收收入每年1万亿美元。系统通过纳税行为的特征分析、跟踪,并发现偷漏税纳税人。通过纳税人的行为分析发现偷漏税的线索,通过分析得出的结论,84.5%的人可以按时纳税,3.1%需要强制,12.4%在逃税。通过应用我们的系统,增收了200亿美元,进行了120万账目的审计。
    Teradata业务价值驱动企业级数据仓库建设的策划。我们说到的业务价值驱动,分别有几个,一个是商业目标,第二个是业务提升机会,第三个是商业问题,第四个是KPI.从商业目标来看,税收质量管理如果拆分成业务提升的问题有三个部分,第一部分是税源的质量,第二部分是征收的质量如何,第三是征收的效果怎么评价,会拆成三个待提升的业务机会。
    这些业务机会,会被拆成若干个业务问题。比如回答纳税人的税源质量怎么样,先要回答利润率怎么样,资产负债率如何,税负如何。如果我们要回答征收质量的问题,就要知道欠缴的税金是多大规模,欠税的比率是多少,清欠的比率是什么程度,呆帐率是多少。这些业务问题组成了税收行业一个大的知识库。我们将来可以跨省、跨区域来共享这些资源和知识库的内容。如果我们能把标准建立起来,能把税务行业的知识库建立起来,能有专门的BICC组织,如商业智能能力中心,有专门的人发挥数据的价值,它所产生出来的收益是不可限量的。
    最后一点,征收任务怎么评价,征收效果如何评价,实际上需综合税源质量和征收质量来评价。大家现在看到的是一个典型的业务提升机会,PPT所列的是典型的税收行业的BIO,业务提升机会的列表,包括税源,预警,收入,质量等等。
    要做到这一点,我们要实现整个税务机构要有统一的数据仓库,不能有第二个,只要有第二份数据就会产生歧异。我们倡导一个概念“一次性加载,多次使用”。带来的好处是极大的减少了数据的拷贝数量,多一份数据,就多一份加载时间,多一份硬件成本,多一份人员去维护,是很麻烦的。第二,有更少的输入路径和访问路径,将来做报表,做分析,做挖掘的时候,只用一个数据来源,参考统一的标准。第三,更简捷的架构,因为数据只有一份,所以无论从硬件上还是软件上,都很简单。
    部署了Teradata动态商业智能的数据仓库之后能达到什么效果?传统意义上我们发现无论是征管还是会计核算,还是纳税服务,只是从核心系统里取数据,然后供给数据仓库使用,只有管理层在使用这个数据。使用了动态数据仓库之后,这个数据会通过数据仓库反馈给客服人员、征管人员和税管员,无论是一线的业务人员,还是后台的战略决策用户和管理用户,都是在一个基础的数据仓库上一起协作工作。
    业务系统相当于手和脚,用于执行,数据仓库和商业智能系统相当于人的大脑,大脑向不同的业务人员和管理人员发出指令的时候,整个税务的管理体系便是一个完整的系统。谢谢大家!