数据仓库概念及实现

来源:互联网 发布:常州计算机vb老师招聘 编辑:程序博客网 时间:2024/05/01 00:29

 


W. H. Inmon(业界公认的数据仓库概念的创始人)给数据仓库作出的定义是:数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制订过程。

1.数据仓库是面向主题的 它是与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域。比如,一个保险公司的数据仓库所组织的主题可能为:客户,险种,保险金,索赔。而按应用来组织则可能是:财产保险,人寿保险,健康保险,分红保险。我们可以看出,基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵。而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起的。应用是客观世界既定的,它对于数据内容的划分未必适用于分析所需。

2.数据仓库是集成的 原始数据的存在形式往往并不适合直接进行分析处理。因此,在数据进入数据仓库之前,必然要经过加工与集成。这一步实际上是数据仓库建设中最关键、最复杂的一步。首先,要统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等;而且数据仓库往往需要整合来自不同应用系统的数据以形成可服务于更广泛管理目标的数据资源体系。在此集成过程中甚至还须对原始数据中长期遗留的错误进行校验和清理。

3.数据仓库是稳定的 它反映的是历史数据的内容,而不是处理联机数据。因而,数据经集成进入数据库后是极少或根本不更新的,从而具有明确的时间基准。

4。数据仓库是随时间变化的 它表现在以下几个方面:

首先,数据仓库内的数据时限要远远长于操作型环境中的数据时限。前者一般在510 年,而后者只须保留当前数据。数据仓库保存数据时限较长是为了适应进行趋势分析的要求。

其次,操作型环境包含当的数据,即在存取一刹那是正确、有效的数据;而数据仓库中的数据都是历史数据。

最后,数据仓库数据的码键都包含时间项,从而标明了该数据的历史时期。

数据仓库并不是市场上可以买来即用的现成商品,而是借助平台工具软件系统进行构建的结果。它的建立是一种循环的逐步完善的过程而不是一步完成的。数据仓库通常是与解决企业或机构不断改变的组织、管理、经营问题的全过程有关。

数据仓库通常是围绕主题建立的。主题就是企业感兴趣的论题,比如部门、活动和操作结果。数据仓库的结构是由数据仓库应满足的应用决定的。快速提交信息是成功实施数据仓库的关键。因此可选择企业重点关心的或数据基础较好的管理领域、业务领域作为阶段目标进行分步实施。

然而对于一个企业或机构来说,仅拥有数据仓库,而没有高效的数据分析工具,就如同守着一座储量丰富的金矿而不知如何采掘。通常数据库系统是面向操作型环境的,需要频繁地进行更新、删除等操作,所以承担此任务的数据库引擎的功能非常强大。但正因为数据库系统主要面向事务处理应用,所以拥有的分析功能较弱,只能满足日常应用中信息的提取,而对于深层次信息的需求无法胜任。这些需求必须由功能强大的分析工具来实现。

分析应用所需工具可以归纳为以下几类:

1.查询工具

主要是指将数据直接(即无须经过复杂的分析算法处理)呈现给用户的工具。既可以是对数据仓库中记录级数据的查询,也可以是对分析结果(发展趋势或模式总结)的查询。其目标在于使得用户能够方便直观地提出查询要求并且以友好清晰的方式呈现出来,从而帮助用户实现对数据仓库的阅览。查询工具可以与分析型工具结合起来实现诸如原因分析、目标探察等分析任务。

2.分析型工具

根据数据仓库的定义和用途,它面向的用户是中高层领导和分析人员,主要执行决策支持和趋势分析类应用。 用户从数据仓库采掘信息时可能有多种不同的方式,但大体可以分成两种模式,即验证型(Verification)和发掘型(Discovery)。

1)验证型

用户首先提出自己的假设,然后利用各种工具通过逐步的检索查询以验证或否定自己的假设。从用户的观点来看,他们是在从数据仓库中发现事实。这方面的工具主要包括: 可视化工具 可视化工具以图形化的方式展示数据,以便充分利用人类的视觉能力,更方便地发掘数据间的潜在关系。通过可视化工具,人们可以深入到数据的结构中,了解数据的复杂性和动态性。 多维分析工具 即实现所谓的联机分析处理(OLAP)。多维分析工具通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,从而使分析员、经理和行政人员能够对数据进行深入地分析和观察。 上述技术有一个共同的特点:需要用户指导数据分析的全过程。

2).发掘型

发掘型的应用主要负责从大量数据中发现数据模式,预测趋势和行为。与验证性工具的很大的区别在于,用户在对整个信息的挖掘过程中毋需或只需很少的指导。发掘型的工具主要指的是数据挖掘(Data Mining),即按照既定的业务目标,对大量的有关数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法。与验证型工具不同,数据挖掘是一种展望和预测型的工具,它能发掘数据间潜在的模式,发现人们可能忽略的信息,并为企业做出前摄的(Proactive)、基于知识的决策。数据挖掘的核心技术包括数理统计、时间序列分析、神经元网络算法、决策树分析等。 与验证型工具一样,数据挖掘将获取的信息也需要以便于用户理解和观察的方式反映给用户。这时可以利用可视化工具。如果需要,可以递归地执行上述三个过程。查询工具、分析型工具和挖掘型工具结合在一起构成了数据仓库系统的工具层。它们各自的侧重点不同,因此适用范围和针对的用户也不相同。只有具备了上述三种工具的数据仓库系统,才能真正发挥其数据仓库的作用。

典型的数据分析系统是由以下成分组成:

1 各种所需的数据源。

它们存在于各种事务处理系统的管理之下,是分析系统的数据流起点。

2 数据仓库系统。

按管理主题领域所建立的分析型数据资源体系,是分析功能所作用的直接对象。其内容包括描述各种有关事物的细节级详细数据、体现各类管理主题的不同综合程度的主题数据、数据仓库数据集合及其形成过程的描述性信息(即元数据)和数据仓库管理系统。数据仓库管理系统要承担如下任务:数据抽取、校验、转换、整合、度量计算、加载、刷新、元数据维护、作业调度等。细节级详细数据一方面作为主题数据生成的数据基础,另一方面可以满足联机细节信息查询(包括由宏观至微观的钻入式分析)的需要。而主题数据则是满足绝大多数情况下分析计算数据请求的主体部分。

3 分析系统。即基于数据仓库之上的数据利用部分,是最终用户的使用环境。前面已经提到,按数据处理的复杂程度可分为查询型、分析型和挖掘型等;按使用对象的不同可分为决策支持系统、分析系统、专业分析研发系统等;按涉及的领域可分为财务分析系统、分析型客户关系管理、分析型渠道关系管理、业务分析系统、市场分析系统等;按操作模式的不同可分为客户机/服务器模式(C/S)、浏览器/服务器模式(B/S);根据用户需求的通用程度可配置通用商品工具软件或利用开发工具定制满足特定需求的分析环境。

原创粉丝点击