数据挖掘的基本任务与要解决的问题(数据挖掘入门)

来源：互联网发布：react.js阮一峰编辑：程序博客网时间：2024/05/16 06:47

数据挖掘技术的基本任务主要体现在：

1)分类与回归
2)聚类
3)关联规则
4)时序模式
5)偏差检测

一、分类与回归

分类：指将数据映射到预先定义好的群组或类。
因为在分析测试数据之前，类别就已经确定了，所以分类通常被称为有监督的学习。分类算法要求基于数据属性值来定义类别，通常通过已知所属类别的数据的特征来描述类别。
分类就是构造一个分类函数(分类模型)，把具有某些特征的数据项映射到某个给定的类别上。该过程由两步构成。
模型创建：通过对训练数据集的学习来建立分类模型。
模型使用：使用分类模型对测试数据和新的数据进行分类。
其中的训练数据集是带有类标号的，也就是说在分类之前，要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出。

回归：用属性的历史数据预测未来趋势。
回归首先假设一些已知类型的函数(例如线性函数、Logistic 函数等)可以拟合目标数据，然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。
回归模式的函数定义与分类模式相似，主要差别在于分类模式采用离散预测值(例如类标号)，而回归模式采用连续的预测值。在这种观点下，分类和回归都是预测问题。但数据挖掘业界普遍认为：用预测法预测类标号为分类，预测连续值(例如使用回归方法)为预测。许多问题可以用线性回归解决，许多非线性问题可以通过对变量进行变化，从而转换为线性问题来解决。当然也有非线性解决方法，如SVM、神经网络。

主要的分类与回归算法

二、聚类

聚类分析：是在没有给定划分类的情况下，根据信息相似度进行信息聚类的一种方法，因此聚类又称为无指导的学习。
与分类不同，分类需要先定义类别和训练样本，是有指导的学习。聚类就是将数据划分或分割成相交或者不相交的群组的过程，通过确定数据之间在预先指定的属性上的相似性，就可以完成聚类任务。
聚类的输入是一组未被标记的数据，根据数据自身的距离或相似度进行划分。划分的原则是保持最大的组内相似性和最小的组间相似性，也就是使不同聚类中的数据尽可能地不同，而同一聚类中的数据尽可能地相似。比如根据股票价格的波动情况，可以将股票分成不同的类，总共可以分成几类，各类包含哪些股票，每一类的特征是什么，这对投资者，尤其对投资基金的人来说，可能是很重要的信息。当然，聚类除了将样本分类外，还可以完成孤立点挖掘，如将其应用于网络入侵检测或金融风险欺诈探测中。
主要的的聚类算法

三、关联规则

关联规则：揭示数据之间的相互关系，而这种关系没有在数据中直接表示出来。
关联分析的任务就是发现事物间的关联规则或称相关程度。关联规则的一般形式是：
如果A发生，则B有百分之C的可能发生。C称为关联规则的置信度(Confidence)。
利用关联分析能寻找数据库中大量数据的相关联系，常用的两种技术为：
关联规则，用于发现一个事物与其他事物间的相互关联性或相互依赖性，如分析客户在超市买牙刷的同时又买牙膏的可能性。
序列模式分析，将重点放在分析数据之间的前后因果关系，如买了电脑的顾客会在三个月内买杀毒软件。
相信大家都听说过“尿布与啤酒”的故事。在某超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是：跟尿布一起购买最多的商品竟是啤酒！经过大量实际调查和分析，揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有 30%～40%的人同时也为自己买一些啤酒。
产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。
关联规则算法

四、时序模式

时序模式：描述基于时间或其他序列的经常发生的规律或趋势，并对其建模。
与回归一样，它也用已知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。序列模式将关联模式和时间序列模式结合起来，重点考虑数据之间在时间维度上的关联性。时序模式包含时间序列分析和序列发现。
时间序列分析：用已有的数据序列预测未来。在时间序列分析中，数据的属性值是随着时间不断变化的。回归不强调数据间的先后顺序，而时间序列要考虑时间特性，尤其要考虑时间周期的层次，如天、周、月、年等，有时还要考虑日历的影响，如节假日等。
序列发现：用于确定数据之间与时间相关的序列模式。这些模式与在数据(或者事件)中发现的相关的关联规则很相似，只是这些序列是与时间相关的。
时间序列的组合成分

时间序列的变化主要受到长期趋势、季节变动、周期变动和不规则变动这四个因素的影响。其中：
长期趋势因素(T)反映了经济现象在一个较长时间内的发展方向，它可以在一个相当长的时间内表现为一种近似直线的持续向上或持续向下或平稳的趋势。
季节变动因素(S)是经济现象受季节变动影响所形成的一种长度和幅度固定的周期波动。
周期变动因素(C)也称循环变动因素，它是受各种经济因素影响形成的上下起伏不定的波动。

不规则变动因素(I)不规则变动又称随机变动，它是受各种偶然因素影响所形成的不规则变动。

注：回归与时序模式的异同，可参考《时间序列分析与回归分析之异同》

时间序列分析算法

五、偏差检测

偏差：是对差异和极端特例的表述，如分类中的反常实例、聚类外的离群值、不满足规则的特例等。
偏差检测：用来发现与正常情况不同的异常和变化，并进一步分析这种变化是有意的诈骗行为，还是正常的变化。如果是异常行为，则需提示采取预防措施，尽早防范。

注意：
大部分数据挖掘方法都将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能比正常的数据更有用。

数据挖掘是目的，即知识发现，数据挖掘从这个词演变而来的。有人说，机器学习与数据挖掘是并列关系，本人不敢苟同。数据挖掘的角度任务，机器学习的角度是方法。

参考文献：

[1]张良均,陈俊德.数据挖掘使用案例分析[M].机械工业出版社，2013.6.23-32.

1 0