数据挖掘导论

来源：互联网发布：阿里云发票退票编辑：程序博客网时间：2024/05/25 23:58

20世纪60年代，从文件处理演化到数据库系统；

20世纪70年代，演化到关系数据库，联机事务处理（OLTP）将查询看做只读事务；

80年代中期到现在，研究分布性、多样性和数据共享等问题，还有基于Internet的全球信息系统；

80年代后期到现在，出现的数据库结构是 数据仓库，可将多个一种数据源在单个站点以统一的模式组织存储；数据仓库技术包括 数据清理、数据集成和联机分析处理（OLAP）；数据仓库通过数据处理、数据变换、数据集成、数据装入、和定期数据刷新来构造；

90年代到现在，基于Web的数据库系统，基于XML的数据库系统和Web挖掘；

有趣的模式表示知识。模式兴趣度的客观度量有规则的支持度（support）（满足规则的样本百分比）和置信度（confidence）（规则成立的条件概率P(Y|X) ），通常与阈值关联。

数据挖掘研究还发表在数据库、统计学、机器学习和数据可视化的杂志上。

据统计在一个完整的数据挖掘过程中数据预处理要花费 60%左右的时间而后的挖掘工作仅占总工作量的 10%左右数据预处理主要包括数据清理，集成和归约 .

数据清理是处理数据中的遗漏和清洗脏数据 .

数据集成将多数据源中的数据进行合并处理解决语义模糊性并整合成一致的数据存储 .

数据归约将辨别出需要挖掘的数据集合缩小处理范围 .

关联分析

关联分析主要是为了得到数据内部的隐含的关联模式，通常以A=>B表示。

主要算法是经典频集（Apriori）算法，但是它存在无法并行计算，效率低的问题，改进算法有，基于分块的（partition），基于Hash的，还有采样和减少交易数法AprioriTid。

针对候选集大的问题，有FP-growth方法。针对稀有特征无法分析问题，则在计算特征是引入Hash方法。

分类

分类是数据挖掘中很重要的一个方向，一般是根据已有样本训练生成分类器，然后对其他对象进行分类。

主要算法有：

决策树法：ID3 ； C4.5 ；SLIQ ；SPRINT ；

RainForest 算法框架，这个框架可以减少算法的内存占用，加快执行速度，但是准确性由使用此框架的算法决定；

统计方法，基于Bayes：NB；TAN；

机器学习方法：神经网络；支持向量机；粗集理论；遗传算法等。

其他：CAR；LB；对数据库操作的MIND。

聚类

聚类是在数据内部寻找相似度，分成若干簇，簇内相似度高，簇与簇之间差别大。下面内容参考贺玲，吴玲达，蔡益朝的《数据挖掘中的聚类算法综述》一文。

聚类算法的改进可以考虑以下方面：

（1）融合不同的聚类思想形成新的聚类算法，从而综合利用不同聚类算法的优点。
（2）处理大规模数据和高维数据的能力，这是多媒体数据挖掘中聚类算法必须解决的关键问题。
（3）对聚类的结果进行准确评价，以判断是否达到最优解，这也自然要求聚类结果具有可解释性。
（4）选取合适的聚类类别数，这是一个重要的参数。它的确定应更多地依赖于相关的经验知识以及对目标数据集所进行的必要的预处理。
（5）对数据进行合理的预处理。该过程包括对高维数据以及对大规模数据建立索引等，它不仅是实现（4）的前提之一，也为获得更准确的聚类结果提供了一个重要的手段。
（6）在聚类过程中使用合适的相似计算公式及评价准则。合理的相似性评判准则对聚类结果的准确性起着不容忽视的作用。
（7）将领域知识引入聚类过程。领域知识的引入不仅有助于选择合适的模式表达机制、选择合适的聚类算法，还能使以上很多方面的问题都能得到合理的解决，从而提高相应的聚类算法的性能。

时间序列数据挖掘

主要指在数据挖掘过程中考虑数据间的时间关系。主要研究一下几个方面：

时间序列相似性搜索；

时间序列聚类和分类；

时间序列相关规则提取和模式分析；

海量时间序列可视化；

时间序列预测；等

时间序列预测技术大体分为

线性时间序列预测技术，主要是利用数学方法建立随机模型，如自回归模型、自回归滑动平均模型等进行预测；

非线性时间序列预测技术主要采用嵌入空间法和神经网络方法等，特别是混沌时间序列预测和神经网络的时间序列预测；

当然还有一些其他技术，如滑动窗口二次自回归模型，基于云模型的时间序列预测等。