(1)Introduction

来源：互联网发布：dijkstra算法的优点编辑：程序博客网时间：2024/06/05 21:06

数据挖掘Intro

背景

It行业的发展使得数据的体量越来越大，我们希望从这些数据中提取出有用的信息。面对这些规模巨大而且本身属性不太传统的数据，传统的数据分析工具表示无能为力。于是乎，挑战带来了机遇，数据挖掘抓住了这个机会，直面了挑战，并在实战中证明了自己。

数据挖掘是啥玩意儿

数据挖掘是一个在大量数据中自动发掘有用信息的过程。这些有用信息通常是藏得很深的，不用点奇淫技巧一般难以发现。那数据挖掘就是致力于去寻找这些隐藏的数据模式的一些方法。骚等一下，这样看起来是不是我用baidu或者Google搜索也算在搞数据挖掘嘞？看起来好像是，不过这要归于另一个领域，信息检索（Information Retrieval）。当然咯，搜索引擎或者信息检索系统可以通过数据挖掘的方法来优化...

数据挖掘的过程

事实上数据挖掘是知识发现过程中的一部分，那么数据挖掘是怎样来发现知识的嘞？先看下大概的流程图：

一般我们最初获得的数据是粗糙的，不规整的，在将数据提交给数据挖掘算法前要做些预处理，例如特征选取，减少维度等...所谓“好的数据胜过好的算法”，也就是说如果提供给算法是数据是很烂的（例如有很多噪声），那再好的算法也没法获得令人满意的结果。要得到好的数据，一方面可以改进原始数据收集的过程，另一方面则要进行合理的数据预处理。可见数据预处理是灰常重要的，同时也是很费时费力的。

通过数据挖掘算法处理后，我们从数据得到了信息，而要进一步理解这些信息，就需要做后处理。后处理就是将挖掘到的信息解释，得到一些不懂技术不懂数据的领导也能看明白的结果。于是乎领导就能据此拍脑袋，做决策... 后处理的过程中，模式过滤确保只有那些合理且有用的数据模式被保留，可视化和解释就是为了更直观地理解和呈现信息。

数据挖掘的分类

预测模型

预测就是要通过数据的一些推测另一些属性。被用于预测的这些数据（属性）是自变量（Independent Variables），而被预测的属性就是因变量了。根据因变量是连续的还是离散的，可以把预测分为两类。若要预测的因变量是连续变量，通常称为回归问题，而如果因变量离散的，就称为分类问题了...应该说这俩类的界线并不很明确，比如一个分类问题，但是一直要划分的类别很多很多很多，多着多着变成了回归问题了。另外Logistics回归是用来做分类问题的...

关联规则分析

关联规则通常用属性的子集来表示。子集的数量是指数增长的，那就要想办法在可接受的时间复杂度内找到最有用的模式。关联规则在推荐系统，基因组分析等方面很实用。

聚类分析

聚类分析要找到一种对数据分组的模式，使得同一组的数据尽可能更相似，而不同组之间的数据尽可能不相似。

异常检查

异常检查致力于寻找那些异常的数据记录，英文叫anomalies或者outliers，就是那些不合群的孩子...可用于信用卡欺诈，网络入侵等的检测。

0 0