数据挖掘概述

来源：互联网发布：淘宝二手手机店铺编辑：程序博客网时间：2024/06/06 17:10

在数据挖掘应用领域里存在四种完全不同的学习方式。分类学习(classification learning)是用一个已分类的样本集来表示学习方案，并希望从这个样本集中学习对未来样本进行分类的方法。关联学习(association learning)寻找任何特性之间的关联，不仅仅是为了预测一个特定的类值。聚类(clustering)寻找能够组合在一起的样本，并依此分组。数值预测(numeric prediction)预测出的结论不是一个离散值而是一个数值量。不管采用什么方式进行学习，这里将被学习的东西称为概念，由学习方案产生的输出就是概念描述。

机器学习方案的输入是一个实例集(也称样本)。这些实例由机器学习方案进行分类、关联或聚类。每一个实例都是一个被用来学习的单一、独立的概念样本。每个实例由一组预先定义的属性值来表示。每一个数据集都可以表示成一个实例与属性的矩阵，用数据库的术语说这是单一关系的数据，或一个平面文件(flat file)。

每一个单一、独立的实例是由一组固定的和预先定义的特征或属性值作为输入提供给机器学习的。一个特定实例的一个属性值是属性所对应部分的一个测量值。数量值和名词性量之间存在明显的差异。数值属性有时也称为连续属性，它是测量到的实数或整数值。需要注意的是，从数学的观点上说，整数值在数学意义上当然是不连续的，这里滥用了连续这个术语。名词性属性是从一个预先定义的有限的可能值的集合中取值，有时候也称为范畴属性。但是也存在其他可能性，在统计的文章中经常介绍“测量标准”，如名词性值、有序值、区间值和比率值。

名词性值是一些独特的符号。这些值作为标签或者名字使用，所以称它们为名词性(nominal)。例如，在天气数据中，outlook(阴晴)的属性值是：sunny、overcast和rainy。这三个值之间没有隐含任何关系，没有先后次序或距离测量。把值进行相加或者相乘或是比较它们的大小是没有意义的。使用这类属性的规则只能测试相等或不等。

有序值是那些有可能进行排序的范畴值。尽管值间有排序的可能，但是绝不存在距离。例如，在天气数据中，气温(temperature)的属性值是：炎热(hot)、温和(mild)和凉爽(cool)。它们是有序的。为了方便起见是否可以把它们看成：hot>mild>cool或者hot<mild<cool，只要保持连贯性，两者皆可。重要的是要把温和放置在其他两个值之间。尽管在两个值之间进行比较是有意义的，但是将它们相加或者相减都没有意义。使用这类属性的规则可能包括一个比较操作。

区间值不但是有序的而且还可以用固定和相等的单位进行度量。温度就是一个很好的例子，它用度表示(如：华氏)，而不是用cool、mild和hot非数值的刻度来暗示。讨论两个温度的差异是很明确的工作，如46度和48度，也可以与其他两个温度之间的差异进行比较。

比率值的测量方法内在定义了一个零点。例如，当测量一个物体到另一个物体的距离时，物体到它自身的距离形成了一个自然的零值。比率值通常是实数，所以可以进行任何数学运算。

0 0