数据仓库与数据挖掘技术在金融业的应用

来源：互联网发布：python零基础入门书籍编辑：程序博客网时间：2024/05/02 17:56

商务智能与数据挖掘

摘要：

本文介绍数据挖掘的相关概念、功能和特点，商业数据挖掘的流程、设计模式，企业进行数据仓库建设的规划以及当前我国数据挖掘面临的一些挑战。最后，结合金融业的实际情况，谈谈银行建设数据仓库的一些设想。

Abstract：

This thesis not only introduce the concept, function and characteristic of data mining, but also introduce the flow and design pattern of business data mining and the development of data mining technique in China. At last, it associate with financial business , talking about some design idea of data warehouse of bank.

正文：

前阵子有幸作为单位的代表去参加11月4日在华南理工大学举行的、广东省计算机学会主办的《商务智能与数据挖掘报告会》，在会上，华南理工大学计算机学院的郑启伦教授和彭宏教授分别做了关于商务智能与数据挖掘技术的相关学术报告，让我学到了很多新的知识，受到了很大的启发。

华南理工大学计算机学院的郑启伦教授作了《人工智能发展的机遇与挑战》的报告。郑教授先对人工智能的发展历史做了概述，并简要介绍了人工智能在数据库，网格计算，海量处理以及知识发现等领域的应用，提出了《计算智能》是解决“信息爆炸，知识贫乏”的一个新的研究方向，其中，“商务智能”、“数据仓库与数据挖掘技术”的应用，已成为各行业、各部门信息化必然趋势。他指出，人工智能（AI）依赖于知识，而计算智能（CI）依赖于决策，我国经过近几年的信息化建设，各行各业已经积累了大量的数据，但现有的数据中存在着一些不规范的数据和“垃圾”数据，如何在海量的数据中寻找有用的数据，是我们现阶段计算智能面临的挑战。对于郑教授提到的“信息爆炸”，我自己本身也是深有感触。我在大学三年级的时候曾在我们学院副院长的带领下作过《现在社会信息过载》的研究课题，深刻理解到当今世界信息量正在迅速的膨胀，以及当前摆在我们面前的主要问题是如何在海量的数据中，剔除不相关的“垃圾数据”，寻找对自己真正有用的信息资源。

接着，华南理工大学计算机学院的彭宏教授作了《商务智能与数据挖掘技术的最新进展及其应用》的报告。彭教授用具体的案例，向我们介绍了数据仓库与数据挖掘的相关概念、功能和特点，商业数据挖掘的流程、设计模式，企业进行数据仓库建设的规划以及当前我国数据挖掘面临的一些挑战。

商务智能是通过对大量的数据进行自动地加工、处理、分析，实现数据向信息，信息向知识的转换，并将知识应用与决策的一系列过程的技术。

数据仓库是一个环境，而不是一件产品，提供用户用于决策支持的当前和历史数据，这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问，的各种技术和模块的总称。

数据挖掘是一个工具，是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。它能够帮助商业人士更深入、更容易的分析数据，在“数据矿山”中找到蕴藏的“知识金块”，帮助企业减少不必要投资的同时提高资金回报。

数据挖掘的功能主要分为两种：预言和描述

预言是通过对历史数据的分析预言模型，帮助企业做出正确的决策。

描述是通过挖掘发现数据之间的某种关联和规则。

数据仓库的特点是：

1，数据仓库是面向主题的。

所谓主题，是指数据归类的标准，每个主题对应一个客观分析领域，如货币供应情况、贷款情况、储蓄增长情况等。面向主题，就是指数据仓库内的金融信息是按主题进行组织的，面向主题的数据组织方式是在较高的层次上进行数据抽象，对金融指标体系进行重组，以便能完整、统一地描述宏观决策的分析对象。

2，数据仓库的数据是集成的。

所谓集成，指数据仓库中的信息不是从各个业务处理系统中简单抽取出来的，而是经过系统加工处理的，不同的数据存放在不同的联机数据库中，与不同的应用逻辑捆绑在一起，有重复和不一致的地方。系统对收集起来的数据进行抽取、清洗、转换和装载等操作，确保数据仓库的信息是关于银行的一致的全局信息。

3，数据仓库的数据是相对稳定的。

数据一旦进入数据仓库，一般情况下将长期保留，并且积累了相当多的历史数据，数据状态在一定时段内相对稳定。因为数据仓库中绝大部分操作是插入和查询操作，修改和删除操作很少。

4，数据仓库的数据是体现数据历史变化的。

数据仓库中的数据一般期限较长，并且包含时间元素。数据仓库内的信息并不只是某一时间点的信息，而是从过去某一时间点到目前的各个阶段的信息，通过这些信息，可以对某些金融指标数据的发展趋势做出定量分析和预测。

我国现阶段大部分企业数据仓库建设面临的主要问题是：

1，数据积累不全面

2，业务模型构件困难。

数据挖掘技术实施的流程

传统的基本数据挖掘流程包括：

1. 需求分析，明确主题

2. 建立数据挖掘业务模型

3. 分析数据

4. 准备数据

5. 建立数据模型

6. 评价模型

7. 实施

在这里，彭教授提出了一个新的观点，就是由于现实中商业需求的不明确性和易变性，他在以上步骤7之后又增加了反馈分析，如果挖掘结构不符合需求，则对模型进行修改，所以整个数据挖掘的过程变成一个迭代的过程，每一次迭代都对上一次开发做了修正，不断的接近目标。同时，他指出，数据的准备也是一个比较重要的环节，它包含了数据的抽取、清洗、转换和装载四个步骤。

综合以上数据挖掘的流程，我们会发现，实现数据挖掘对现在系统开发人员提出了新的要求。除了要对业务有深刻的理解，还要求有抽象的业务建模能力，数值分析能力，严格遵守数据库范式设计的能力，宏观的架构设计能力等等。

对于数据仓库的设计模式，现在比较流行的主要有两种：自顶向下和自底向上。

自顶向下是指先设计好整个数据仓库的框架模型，然后一次性的完成数据仓库的建设工作，优点是最小化数据冗余度和不一致性，缺点是周期长，收益慢，投资巨大。

自底向上是指先逐个为每个主题建设数据集市，在逐步整合成为一个数据仓库，优点是周期短，收益快，设计可伸缩性强，缺点是存在一定的数据冗余和不一致性。

数据仓库的多维分析模型主要有两种：星型模型和雪花模型

多维分析通过把实体的多项属性定义为多个维度，能够方便地汇总数据集，简化了数据的分析处理逻辑，并能对不同维度值的数据进行比较。

主要的操作有：

1，上卷(roll-up)

通过在维层次中上升或消除某些维来执行聚集操作，从而可以查询更加概括的数据。

2，下钻(drill-down)

通过在维层次中下降或引入新的维，从而可以查询更加详细的数据。

3，切片(slice)

对数据立方体的一个维进行选择操作，得到一个子立方体。

4，切块(dice)

对数据立方体的两个或多个维进行选择操作，得到一个子立方体。

数据仓库与数据挖掘技术在金融业的应用

最后，彭教授介绍了数据挖掘技术在各行各业的应用，并且演示了华南理工大学数据挖掘研究所的最新产品，中国银行广东省分行的《信用卡分析与预测系统》，让我们真正见识到了数据仓库与数据挖掘技术在金融业发挥的重要作用。

通过建立数据仓库和应用数据挖掘技术，对银行的储蓄卡，信用卡，存折，按揭，借贷信息的挖掘，可以发现以下重要信息，为银行的发展提供重要的决策支持：

1，银行的优质客户分析，可以对不同类型的客户提供针对性的服务

2，及时发现恶意客户的欺诈行为

3，发现客户的消费习惯，如消费时间、地点甚至商品类别

4，预测业务的发展趋势

5，客户关系，保证客户的忠诚度

于是我联想到我农联社近期正在进行的反洗黑钱工作，我社自2001年开展国际业务以来，业务稳步发展并已经达到一定规模，有必要对反洗钱实施严密监控，保障我社和国家的利益不受犯罪分子的侵犯。当前腐败分子和赌博资金转移猖獗，黑钱金额巨大，并且部分经过金融机构流进流出，造成国家财产重大损失，对我国金融稳定和货币政策的有效实施造成重大影响，损害我国的国际声誉，必须坚决予以打击。由于我之前在国际业务部实习期间，在我联社还没有确定出台哪套方案之前，该部门经理曾要求我根据外管反洗钱的要求，做一个数据统计系统用于对每月数据的监控，我有幸了解了相关知识并做了一些实践。当时是用ACCESS开发的数据库系统，由于处理能力有限，所以只能建立过程数据库分周段来对数据进行处理，接着对数据进行清洗、转换然后再装载到相应的主题数据表，最后分两个维度对数据进行分析统计，得出分析结果。虽然到最后该系统没有真正投入使用，但是在开发的过程中，我学习到了很多基础的数据挖掘技术相关的设计思想。

我永远记得我刚来电脑部报到时，领导对我说的一句话，那就是：“技术一定要和业务结合起来，才能够为企业的发展发挥作用。”通过这次报告会的学习，结合我们广州农联社现在的实际情况，我对我社数据仓库建设提出了自己的一些看法。

按照彭教授的观点，企业要实现数据挖掘技术，首先要有数据仓库，要建立数据仓库，首先要实现数据大集中。现在金融业中的个大银行，都在积极准备或者正在实现数据大集中的伟大构想，不可否认，数据大集中是银行业发展的趋势，可以统一全行的数据规范，数据集中管理等，但也同样带来了一些新的问题，如数据安全性的风险也被集中放大了，而且对远程访问的网络效率和稳定性也要求更高。我们农联社已经实现了广州全辖的数据集中，前阵子也经常听到同事在讨论我省联社数据大集中的问题，我觉得，我们农联社是一个历史悠久的金融机构，网点分布很广，且多在城郊结合处甚至农村，网络通信设备水平较低；再者，我们农联社不像其他四大国有商业银行在管理制度上的垂直管理，我们是一个地方性、自治性较强的金融机构，所以在现阶段较难实现省内全辖数据规范与管理的统一。

根据我的理解，数据集中在系统层面上，还分为：后台数据层的大集中和前置事务调度层的集中。现在主流的金融系统一般分为四个层次，即前台操作层，事务调度层，应用服务层和后台数据层。前台是一个很大的范畴，指的是任何可以触发交易事务的终端，包括直接面向业务人员的操作终端，ATM自动取款机上的终端，电话银行系统上的每一个电话终端，网上银行上的每一个WEB页面等等。事务调度层指在整个金融信息系统中负责事务管理、协调的系统层，所有的交易事务都必须通过系统调度层才能访问后台的服务，系统调度层负责控制每一个交易事务与后台业务逻辑的关联，现在一般大型的系统都用TUXEDO中间件进行事务管理。应用服务层集中了该系统提供的所有服务和业务逻辑，根据实现粒度的不同，以函数、类对象、组件的形式表现出来，每个交易事务一般对应一个业务逻辑或服务。后台数据层主要是集中存放数据，主要以数据库的形式实现，原则上不允许交易事务直接访问数据库，都是通过特定的服务对数据库进行检索更新操作。

在哪一个层面上实现集中，主要根据监控和管理的需要。在系统调度层实现集中，可以有效的监控所有交易事务的进行，协调同类事务并发时对资源的访问，调配各种资源，实现负载均衡。在服务层实现集中，可以规范业务逻辑，降低服务更新的工作量，便于系统的升级。在后台数据层实现集中，有利于数据的集中管理，规范数据格式。

在集中方式上，有物理上的大集中和逻辑上的大集中。物理集中即传统意义上的数据集中存放，而逻辑集中则是逻辑上数据集中管理而物理上采用分布式存放。所以，对于我农联社怎样实现数据集中以及用何种方式集中，一定要根据我们本身的特点和实际情况做周密的分析。

我们广州市农联社已经实现了市全辖的数据集中，并且实现信息化也有一段较长的时间，积累了一定数量的历史数据，所以我们可以在现行的基础上建立我们市农联社的数据仓库系统。数据仓库要求数据在时间上的连续性和规范性，由于我们联社数据库中某些数据还存在着不规范的现象（比如证件号码等），再加上遗留下来的一些历史数据的缺漏（如少部分帐号没有实行实名制），我们有必要对我们的历史数据进行清洗、转换成规范统一的数据格式集中存储。

我们可以采取自底向上的建设方法，先确定相关的主题，然后根据主题建立数据集市，最后当主题达到一定数目的时候再建立统一的数据仓库。这样设计的好处是周期较短，投资较少，见效快，虽然有可能会带来数据冗余，但是可伸缩性强，可以最大限度的降低开发风险。

实践表明，由于人工智能发展的局限性，计算机在未来相当长的一段时期内是不可能像人类这样会进行复杂的思考，它只会按照人的指令工作。但是，计算机拥有海量的数据存储能力和超强的计算能力，所以，只要我们建立合适的业务模型，设计完善的执行程序，选择正确的分析算法，它一定可以更好的为我们服务。

以上是我参加本次报告会后的收获和体会，由于我知识水平有限，实践工作经验不足，难免有些观点不够准确，认识不够深刻，还请各位导指正。

马希佳

2005-11-7