数据挖掘知识

来源：互联网发布：nginx 多servername 编辑：程序博客网时间：2024/06/08 17:38

近来在读谭磊的《New Internet 大数据挖掘》，书中介绍的通俗易懂，没用大量的专业知识介绍，对于处学者，并且想对big data有所了解的人来说，是不错的一本书。边看，边总结，总结不易。

1、大数据的“三V”概念：大量化（Volume）、多样化（Variety）和快速化（velocity），这三个V是大数据时代的显著特征，不过作者又加入了一个V，叫做Value(价值)。其实第四个V才是关键。如果我们不能实现数据的价值，那么再海量的数据也是没有用的。

2、数据挖掘的定义：有组织有目的地收集数据，通过分析数据使之成为信息，从而在大量数据中寻找潜在规律以形成规则或知识的技术。

3、数据分析和数据挖掘的区别：

从本质上来说，数据分析和数据挖掘都是为了从收集来的数据中提取有用的信息，发现知识，而对数据加以详细研究和概括总结的过程。它们之间最大的区别是数据本身的不同

数据量的不同：数据分析通常是存储在数据库或者文件中，一个应用的数据数量级在MB或者是GB，而数据挖掘的应用数据动辄TB，甚至PB。

数据类型的不同：数据挖掘的对象不仅仅是文本，还有音频、视频和图片数据，并且不仅是规范化数据，而且还有半规范化和不规范化数据。

4、数据挖掘分类的技术

目前常用的有四种分类技术：

（1）KNN，K最邻近算法：K最邻近算法可以说是数据挖掘分类技术中最简单的方法。所谓K最邻近，就是K个最近的邻居，说的是每个样本都可以用它最接近的K个邻居来代表。

算法描述：首先，计算新样本与训练样本之间的距离，找到距离最近的K个邻居；然后，根据这些邻居所属的类别来判定新样本的类别，如果它们都属于同一个类别，那么新样本也属于这个类；否则，对每个后选类别进行评分，按照某种规则确定新样本的类别。

由于KNN方法主要依靠周围有限的邻近样本，而不是靠判别类域的方法来确定所属类别，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为合适。

（2）决策树

如果说KNN是最简单的方法，那么决策树应该是最直观最容易理解的分离方法。决策树（decisiontree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

大多数的分类算法都是一种类似于黑盒子式的输出结果，你无法搞清楚具体的分类方式，而决策树让人一目了然，很方便。

（3）神经网络

神经网络会将过去的知识学以致用。将学习集中的每个输入加入到神经网络中，并告诉神经网络输出应该是什么分类。在全部学习集都运行完之后，神经网络根据这些例子总结出自己的想法。之后我们就可以把测试集中的测试例子用神经网络来分别作测试，如果测试通过了，那么神经网络就构建成功了。之后我们就可以用这个神经网来判断事务的分类。

（4）支持向量机制（SVM，SupportVector Machine）

关于SVM的介绍，觉得JULY的博客写的不错，可以参考。http://blog.csdn.net/v_july_v/article/details/7624837

这种方法可能比较抽象，SVM的主要思想可以概括为两点: (1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能; (2)它基于结构风险最小化理论之上，在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。

支持向量机算法的目的是找到一个最优超平面，使分类间隔最大。最优超平面就是要求分类面不但能将两类正确分开，而且使分类间隔最大。

支持向量机算法在数据挖掘应用是很看重的一个算法，而原因是该算法自问世以来就被认为是效果最好的分类算法之一。

5、数据挖掘的九大定律http://book.51cto.com/art/201303/386987.htm

数据挖掘通用流程CRISP-DM的缔造者之一TomKhabaza曾总结了在数据挖掘上的九大定律，如下所示。

（1）BusinessGoals Law：每个数据挖掘解决方案的根源都是有商业目的的。

（2）BusinessKnowledge Law：数据挖掘过程的每一步都需要以商业信息为中心。

（3）DataPreparation Law：数据挖掘过程前期的数据准备工作要超过整个过程的一半。

（4）NFL Law：NFL（没有免费午餐，No Free Lunch）。对于数据挖掘者来说没有免费的午餐，数据挖掘的任何一个过程都是来之不易的。

（5）Watkins'Law：此定律以此命名是因为David Watkins首次提出这个概念。这个定律说的是在数据的世界里，总是有模式可循的。您找不到规律不是因为规律不存在，而是因为您还没有发现它。

（6）InsightLaw：数据挖掘可以把商业领域的信息放大。

（7）PredictionLaw：预测可以为我们增加信息。

（8）ValueLaw：数据挖掘模式的精准和稳定并不决定数据挖掘过程的价值，换句话说技术手段再精妙，没有商业意义和合适的商业应用是没有价值的。