数据仓库

来源:互联网 发布:怎么下载视频软件 编辑:程序博客网 时间:2024/05/22 12:49


原文链接:http://www.cnblogs.com/xugang2008/archive/2009/07/09/1519777.html

什么是数据仓库
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building
the Data Warehouse》一书中给予如下描述:数据仓库(Data
Warehouse)是一个面向主题的(Subject
Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time
Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企­业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据库是一个装数据(信息的原材料)的地方。
数据仓库是一种系统,这种系统也是用数据库装东西。
数据仓库系统(用数据库装东西)与其他基础业务系统(例如财务系统、销售系统、人力资源系统等,也是用数据库装东西)的区别是:
基础业务系统的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装,人力资源系统生产了猪肉,再用一个数据库来装。我要做一道菜,需要分别到各个数­据库去取,比较麻烦(现实的情况是大部分时候让种菜的农民伯伯送过来,但送过来的东西不一定是我想要的,而且不同的时候我想要不同的东西,经常会被农民伯伯骂,­弄得双方都不开心)。另外一方面,各个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程,一不小心里面可能就藏着一条大青虫。
那么,数据仓库系统就是建立一个大的超市,将各地农民伯伯出产的东西收集过来,清洗干净,分门别类地放好。这样,你要哪种菜的时候,直接从超市里面拿就可以了。

早期一直不理解数据仓库是什么困惑得很。

宏观一点讲,数据仓库就是堆放公司所有数据的地方,之所以把数据都堆在一起,是为了从中间找到有价值的东西。

数据仓库更多的是一个概念,不要把数据仓库想成那些号称是数据仓库的软件产品们。

数据仓库的物理上就是数据库。相对业务系统数据库叫OLTP数据库(用于业务处理),这种数据库叫OLAP数据库(用于业务分析)。

数据仓库的概念是针对以下基本需求产生的:
公司的业务系统很多,业务系统的历史数据不方便查询。不同的业务系统往往管理部门不同,地域不同。能不能将所有这些数据集中起来,再淘淘有没有有意义的业务规律­。

数据仓库数据库往往很大,因为公司所有的数据集中得越多,越能淘到有价值的发现。例如随便就100G以上。

数据仓库的组成十分繁杂,既有业务系统的历史数据,又有人事、财务数据,还要自己建一些基础性的数据,例如,公共假期数据、地理信息、国家信息等等。

数据仓库概念包含从业务生产系统采集数据的程序,这个程序还不能影响业务系统的运行。(属于所谓“ETL”过程)

数据仓库包括业务系统长期的历史数据,例如5年,用来分析。(所谓“ODS”数据)

数据仓库包括针对某相业务值(例如销售量)重新打上标签的业务流水数据。(所谓“事实表”、“维度表”)。

数据仓库概念兴许还包含报表生成工具(所谓“BI”工具)。这些工具能够达到几年前所谓DSS(决策分析)的效果。

数据仓库的客户历史资量的分析,也许又与CRM系统粘点边。

总之,一点,一个公司想针对已有的历史业务数据,充分的利用它们,那么就上数据仓库项目。至于哪些吓唬人的大写字母的组合,只是达到这个目标的科学技术罢了。

牢记住数据仓库的基本需求,不要被供应商吓着。
数据仓库可以说是决策支持系统,能帮助老板了解企业的整体全貌,看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成­功因素在哪一方面,然后可以不断的追溯数据,直到确定到最具体的细节上,这样能够不断提升老板或管理层的管理水平,不断改善企业的管理。我们知道的最好的一个例­子就是美国某大型超市啤酒和尿布的故事。
沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能(Business
Intelligence,简称BI)技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据­分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种­商品的销量都有了显著增加。
数据库是数据仓库的基础。数据仓库实际上也是由数据库的很多表组成的。需要把存放大量操作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库­中。然后再进行数据展现。老板关注的是数据展现的结果。
数据仓库(DATA WAREHOUSE/DATA
MART)的另一重要概念是数据从不同的数据库(DATABASES)
里调出经过ETL工具(如POWERCENTRE,DECISIONSTREAM, SQL SERVER
2000 DTS, SQL SERVER 2005
SSIS)过程进行清理,确证,整合并设计成多维(dimensional
framework)。以保证数据的正确、准确、完整,
这是非常重要的一点。
我们现在的项目稳定运行了6年多,一直自己开发,最近慢慢开始使用datastage。很多大型项目之所以用工具,是因为工具的本身的特点是开发快,效率相对还­可以,让你更好地有精力用在业务、数据库的优化以及数据测试上,和数据质量本身并没有关系。
而数据质量关系最密切的还是从设计(架构、模型等)、业务关系的理解、项目管理(含和客户的交流,以及遵从开发流程和测试流程)等一系列项目工程的过程。这也是­为什么很多项目使用了ETL工具,但是数据质量还是提高不大的主要原因。

数据仓库的作用重在数据的集中管理。集中管理的最终目的是为了分析,预测。
所谓的ETL。不过是数据仓库的构建的一个必须过程。数据的抽取转换与装载,都是为了集中管理所做的基础工作,这些数据与动作的描述,都会有有响应的元数据进行­描述。
在数据仓库建模的过程,我们一般都是采用多维模型,如星形,雪花型等等,这样做最大的特点就是效率高,数据的冗余度低。所以,把OLAP与数据仓库混为一谈我认­为是片面的解释。
我们也可以选择业务逻辑模型建立数据仓库,这是很早以前的做法了,特点就是效率不高,数据的冗余度高,但他能实现非常难以表达的业务逻辑设计。
基于数据仓库最重要的是分析与预测,我认为,历史现在将来是数据仓库的精华。。
基于数据仓库的DM,OLAP都是为了分析与预测。为了让使用企业单位更好的把握现在,预测将来,因此他最实效的说法我认为是给决策者与管理者进行决策管理提供­分析与预测的依据。

另外,数据仓库还会起到历史数据分类归档的目的(就像图书馆一样),届时可以通过检索条件方便的查询历史信息;而同类信息在OLTP中早已被更新了。
至于它的分析功能,就象气象考古研究工作,在不同深度的冰川中保存着当时的气象信息,否则拿什么预测气候变化趋势呢!
不过,要有相当的管理及技术储备以及管理层的强力支持才可以。先有需求,并具备了必要条件才可上马,否则您的数据仓库将不是超市而是个垃圾堆,“garbage
in,then garbage out”!
所以,我认为是企业信息化建设及科学管理水平的提高催生了数据仓库的必然产生,不要赶时髦,炒概念,关键还是冷静分析自己企业的现实状况是否到了必须部署数据仓­库的阶段了!
至于如何说服管理者,则需要您的努力了,不要站在您技术人员的立场阐述问题,CEO对技术问题不感兴趣,站在他们的角度考虑问题,回答诸如“我们投入如此大的资­金、人力,同时面对升级系统的巨大风险,目的何在?”记住,CEO和CFO(甚至包括CIO)是更希望用数字说话的,您分析一下公司的管理决策流程,就可以向他­们提出很有价值的决策支持报表,而部门经理(或类似人员)每季度也不必头大的制作相关分析报表了,节省的精力可以做更多有价值的事情,这就是企业人力资源利用率­的巨大提升,可以节省多少银子,恐怕CEO不会用你提示了吧!

1 0
原创粉丝点击