数据挖掘在集中式计费系统中的应用

来源：互联网发布：如何做数据分析图编辑：程序博客网时间：2024/04/28 12:14

摘要：本文首先介绍了数据挖掘的概念及相关技术，然后论述了数据挖掘技术在集中式计费系统中的应用，并使用分布式对象技术、多层架构、Web即：构件 + B/S ＋ Java ＋ Internet架构，对数据挖掘的实现进行了有效描述。
关键词：数据挖掘; 集中式计费系统；JSP/Servlet；EJB；B/S；

Abstract: The paper introduces the concept and technology of Data Mining；then discuss the application of Data Mining in the Concentric Billing System；lastly use some tools such as distributed object technology, multi-tier framework and Web describe the realization of Data Mining.

Key Words: Data Mining; Concentric Billing System; JSP/Servlet；EJB；B/S；

1.引言：

随着国内电信业的改革，各运营商在企业大客户、长途业务、IP业务、移动业务等领域展开了激烈的竞争。在这种状况下，运营商们最为关注的问题就是如何找到自己最有效的客户，如何开发有竞争力的业务，如何提高经营效率。随着计算机技术的迅猛发展，运营商们纷纷求助于IT技术，希望从中找到竞争制胜的良方。

计费帐务系统与广大电信用户的利益息息相关，并直接反映着运营商的经营状况，因此，各运营商都将计费帐务系统的建设、维护、改造作为工作的重点，为了提高经营管理效率和服务质量，各大运营商都建立起了自己的集中式计费系统。它实现了计费范围内统一资费政策、统一营销政策以及统一服务规范，实现了计费的联机集中处理、帐务处理集中化、营业收费的分布化以及客户服务的多样化。

同时，集中式计费系统也导致数据急剧增加，在这些剧增的数据背后隐藏着许多重要的信息，我们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势，缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。

2．数据挖掘技术概述：

2.1数据挖掘的定义:

简单的说，数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

准确的说，数据挖掘是数据仓库中的数据集合，在面向主题的预操作的作用下，转化成面向主题的数据挖掘集合，然后数据挖掘集合在挖掘算法他数据转化操作的作用下转化成相应的信息，最后，在信息输出时对信息进行度量和滤除。

2.2数据挖掘的基本步骤：

首先，我们需要定义商业问题，然后根据选择的组建立数据挖掘库。数据挖掘库中的信息可以从数据仓库中提取，如果还需要别的信息，还可以从外部数据源中直接获取。

其次，在建立数据挖掘库后，需要对数据进行分析，拟定初步的数据模型，包括选择变量，选择记录集合，对变量进行转化或创建新的变量。

最后，对模型进行合理的评估，如果模型和实际系统亦比较大的误差，则模型需要重新修订，直到模型和实际系统比较接近再对模型进行解释，并作为辅助决策信息传递给管理部门。

2.3数据挖掘的功能：

（1）自动预测趋势和行为：数据挖掘自动在大型数据库中寻找预测性信息，从而迅速直接由数据本身得出相应结论。

（2）关联分析：数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。从而为某些决策提供必要支持。

（3）聚类：数据库中的记录可被化分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

（4）概念描述：概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述对象之间的区别。

（5）偏差检测：偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。

2.4 数据挖掘常用的技术：

人工神经网络：仿照生理神经网络结构的非线形预测模型，通过学习进行模式识别。

决策树：代表着决策集的树形结构。

3.遗传算法：基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。

4.近邻算法：将数据集合中每一个记录进行分类的方法。

5.规则推导：从统计意义上对数据中的"如果-那么"规则进行寻找和推导。

2.5数据挖掘常用的工具:

（1）基于神经网络的工具：由于对非线性数据的快速建模能力，神经网络很适合非线性数据和含噪声数据，所以在市场数据库的分析和建模方面应用广泛。

（2）基于关联规则和决策树的工具：大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则，其核心是某种归纳算法。

（3）基于模糊逻辑的工具：其发现方法是应用模糊逻辑进行数据查询、排序等。

（4）综合多方法工具：不少数据挖掘工具采用了多种开采方法，这类工具一般规模较大，适于大型数据库或者并行数据库。

3.据挖掘技术在集中式计费系统中的应用

3.1 系统的总体结构:

客户端只需要一个浏览器如：IE，Netscape；对于近端客户还可以开发定制的GUI实现。

Web服务器用了JSP Servlet响应客户的需求，客户端通过TCP/IP协议访问，也可以直接和应用服务器，调取应用服务器上的分布式构件对象实现功能。

应用服务器集是本系统的核心部分，挖掘管理器、数据挖掘引擎、数据转换器、数据定义、挖掘向导、模式筛选、数据预处理、挖掘内核、模式表达与解释都采用CORBA标准下的EJB开发的构件对象封装业务逻辑，与数据源访问的接口采用JDBC中间件实现，可以和挖掘库、数据仓库数据集市等系统交互，对于文件系统应该开发专门的接口实现。

本系统总体框架结构如图3-1所示：

图3-1

3.2 应用实例分析：

这是一个应用于电信运营商的对用户呼叫特征和历史交费记录进行分析的挖掘实例。

通过对用户的呼叫时间、类型、热点区域等信息进行挖掘，对不同客户进行分类，找出每一类客户的信用度及其消费模式，针对不同的用户制定相应的营销策略，并预测客户消费潜力、流失分析、话费欺诈的可能性，为市场部门决策提供支持。

呼叫特征分析: 呼叫特征分析就是分析不同类型客户在呼叫上具有的特征，特征包括下列衡量指标：

一、按照照呼叫时间把呼叫分成长呼叫，中呼叫，短呼叫。

二、按照呼叫类型可划分为市内电话，网内电话，长途电话。

三、按照每次呼叫的金额可划分为高额呼叫（比如10元以上）、非高额呼叫。

四、按照不同的时间段对呼叫数量进行考察可得到在哪些时段上（比如8:00---18:00）呼叫量比较大，而在哪些时段上呼叫量比较小（比如凌晨）。通过制定不同的收费标准，对呼叫量也可以起到一定的调节作用。

五. 按照用户历史交费情况把用户分成从未欠费用户，欠费一月内交纳用户，欠费三月内交纳用户，欠费六月内交纳用户，恶意欠费用户。

3.2.1 总体设计:

根据每个模块的功能特点对每个模块的功能进行层次上的划分，主要划分成三个层次，表示层、业务逻辑层、数据层。表示层：该层主要完成用户与系统的交互功能以及简单的数据处理。应用逻辑层：该层次主要完成复杂的应用，主要集成服务器端构件，供调用即可完成功能，该层部署数据库交互的中间件，是和数据层次交互的部分。数据层次：DBMS数据库管理系统，这里有数据表、视图等，可以封装存储过程供调用提高执行效率。

3.2.2 表示层设计:

在Web服务器的JSP页面供远端浏览器请求后响应，这个实验例子只需要用户在Input.html里输入任意用户的电话号码或合同号，然后Mining.jsp响应，在服务器端调用应用服务器封装的Mining构件来实现挖掘功能，结果返回以HTML格式返还给浏览器，最后我们会知道此用户的信用度、消费潜力及应采取的营销策略等信息。（源代码略）

3.2.3 逻辑层设计:

我们要实现的功能是输入输入任意用户的电话号码或合同号，我们会知道此用户的信用度、消费潜力及应采取的营销策略等信息。核心构件实现就一个即可实现功能，位于应用服务器供Web服务器调用：我们需要在我们的第一个例程中来创建一个Bean实体、一个Home的接口、一个远程接口。

使用Jbuilder建立一个名为ejbtest的Project（注意要将J2EE的lib加入到工程中来）。然后我们会加入Mining.java(实现远程接口的工作)、MiningHome.java(实现Home接口工作)、MiningEJB.java（EJB实体文件）。（源代码略）

3.2.4 数据层设计:

根据需要把所需数据存放于相应的数据库或数据仓库中，作为挖掘分析的数据源。因为各电信运营商都要自己的数据仓库，这里就不再详述。

4．结束语

在现代社会中，公司大多数商务流程的核心部分是数据。据统计，一个大型企业数据库中数据，只有7％得到很好应用。这样，在人们感到“数据过剩”和“信息爆炸”的同时，却又感到“信息贫乏”（Information poor）和"数据关在牢笼中”(data in jail),而数据挖掘的任务就是在海量的数据中发现有用的数据。但是仅仅发现数据那是不够的。我们必须对这种模型做出一定的反应，并采取行动，最后将有用的数据转换成信息，信息变成行动，行动转换成价值。在未来更加激烈的市场竞争中，拥有数据挖掘技术必将比别人获得更快的反应，赢得更多的商机。