数据挖掘笔记

来源：互联网发布：限塑令发改委大数据编辑：程序博客网时间：2024/05/21 11:24

什么是数据挖掘？

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都被视为数据挖掘，与信息检索的区别。

数据挖掘任务

预测建模，有两类预测建模任务：分类（classification）和回归（regression）。分类用于预测离散的目标变量；回归用于预测连续的目标变量。如预测花的模型。

关联分析，用来发现描述数据中强关联特征的模式。如购物篮分析。

聚类分析，旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。

异常检测，任务是识别其特征显著不同于其他数据的观测值。如信用卡欺诈检测。

分类法是一种根据输入数据集建立分类模型的系统方法。分类法的例子包括决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。这些技术都使用一种学习算法确定分类模型，该模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据，还要能够正确地预测未知样本的类标号。因此，训练算法的主要目标就是建立具有很好的泛化能力模型，即建立能够准确地预测未知样本类标号的模型。

决策树：原则上讲，对于给定的属性集，可以构造的决策树的数目达指数级。尽管某些决策树比其他决策树更准确，但是由于搜索空间是指数规模的，找出最佳决策树在计算上是不可行的。尽管如此，人们还是开发了一些有效的算法，能够在合理的时间内构造出具有一定准确率的次优决策树。这些算法通常采用贪心策略，在选择划分数据的属性时，采取一系列局部最优决策来构造决策树，Hunt算法就是一种这样的算法。Hunt算法是许多决策树算法的基础，包括ID3、C4.5和CART。

基于规则的分类法：最近邻分类器，是一种消极学习方法不需要建立模型，然而，分类测试样例的开销很大，因为需要逐个计算测试样例和训练样例之间的相似度。相反，积极学习方法通常花费大量计算资源来建立模型，模型一旦建立，分类测试样例就会很快。贝叶斯分类器，是一种把类的先验知识和从数据中收集的新证据相结合的统计原理。贝叶斯分类器的两种实现：朴素贝叶斯和贝叶斯信念网络。

神经网络

支持向量机

随机森林

聚类算法：

K均值，是基于原型的、划分的聚类技术。它试图发现用户指定个数（K）的簇（由质心代表）。K均值用质心定义原型，其中质心是一组点的均值。