数据挖掘之七种常用的方法

来源：互联网发布：淘宝客服人工服务在线编辑：程序博客网时间：2024/05/19 20:44

数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等，它们分别从不同的角度对数据进行挖掘。

分类

分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别，用于预测数据对象的离散类别。

分类技术在很多领域都有应用，它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。

当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此，采用数据挖掘中的分类技术，可以将客户分成不同的类别。比如呼叫中心设计时可以分为：呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他，帮助呼叫中心寻找出这些不同种类客户之间的特征，这样的分类模型可以让用户了解不同行为类别客户的分布特征。

其他分类应用如文献检索和搜索引擎中的自动文本分类技术；安全领域有基于分类技术的入侵检测等等。

而主要分类方法有决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络等。

回归分析

回归分析，一个统计预测模型，用以描述和评估应变量与一个或多个自变量之间的关系；反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系。

其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面，如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

主要表现

(1) 判别自变量是否能解释因变量的显著变化----关系是否存在。

(2) 判别自变量能够在多大程度上解释因变量----关系的强度。

(3) 判别关系的结构或形式----反映因变量和自变量之间相关的数学表达式。

(4) 预测自变量的值。

(5) 当评价一个特殊变量或一组变量对因变量的贡献时，对其自变量进行控制。

聚类

聚类，顾名思义就是按照相似性和差异性，把一组对象划分成若干类，并且每个类里面对象之间的相似度较高，不同类里面对象之间相似度较低或差异明显。与分类不同的是聚类不依靠给定的类别对对象进行划分。

分析算法分类

（1）划分方法

（2）层次的方法

（3）基于密度的方法

（4）基于网格的方法

（5）基于模型的方法

它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。如谁经常光顾商店，谁买什么东西，买多少？按忠诚卡记录的光临次数、光临时间、年龄、职业等等；还有银行信用卡的黄金客户，按储蓄额、刷卡消费金额和诚信度等。

关联规则

关联规则是描述数据库中数据项之间所存在的关系的规则，可以从一件事情的发生，来推测另外一件事情的发生，即隐藏在数据间的关联或相互关系，从而更好地了解和掌握事物的发展规律等等。

关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。于是沃尔玛将啤酒与尿布一起销售，**提高了销售额。

关联规则的实际应用包括：交叉销售、邮购目录的设计、商品摆放、流失客户分析、基于购买模式进行客户区隔等等……

在客户关系管理中，通过对企业的客户数据库里的大量数据进行挖掘，可以从大量的记录中发现有趣的关联关系，找出影响市场营销效果的关键因素，为产品定位、定价与定制客户群，客户寻求、细分与保持，市场营销与推销，营销风险评估和诈骗预测等决策支持提供参考依据。

特征

特征分析是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。特征选择的目的在于从海量数据中提取出有用信息，从而提高数据的使用效率。

其中，特征有效性的选择评价有概率论、数理统计、信息论、IR领域的度量、学**相关的度量等。

如营销人员通过对客户流失因素的特征提取，可以得到导致客户流失的一系列原因和主要特征，利用这些特征可以有效地预防客户的流失。

变化和偏差分析

偏差是数据集中的小比例对象。通常，偏差对象被称为离群点、例外、野点等。偏差分析是一个有趣的数据挖掘任务，其目的是发现与大部分其他对象不同的对象。如分类中的反常实例，模式的例外，观察结果对期望的偏差等。

在企业危机管理及其预警中，管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

而其成因有数据源于不同的类、自然变异、数据测量或收集误差等。

Web页挖掘

通过对Web的挖掘，可以利用Web 的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

Web数据挖掘的研究对象是以半结构化和无结构文档为中心的Web，这些数据没有统一的模式，数据的内容和表示互相交织，数据内容基本上没有语义信息进行描述，仅仅依靠HTML语法对数据进行结构上的描述。

可完成任务

（1）网络流量分配情况、随时间变化情况分析。

（2）网站广告点击率、投资收益比分析。

（3）用户从哪里进入网站、跳出网站，进入感兴趣的页的方式等出入口分析。

（4）用户来源分析。

（5）访问站点的用户的浏览器和平台分析。

（6）发现经常被用户一起访问的页面集合，作为优化站点的参照。

（7）聚类行为模式相似的用户，形成智能推荐模式；聚类同一群用户访问的页面，帮助发现站点设计的不合理之处。

（8）预测用户可能访问的页面，行为趋势分析和用户分类等。

数据挖掘是一种决策支持过程，它通过高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策，这对于一个企业的发展十分重要。

阅读全文

0 0