【数据挖掘笔记二】认识数据

来源：互联网发布：java 画流程图编辑：程序博客网时间：2024/05/16 07:29

2.认识数据

提出一些问题来开启数据的认识。数据由什么类型的属性或字段组成？每个属性具有何种类型的数据值？那些属性是离散的，那些事连续值的？数据值如何分布？什么方法更好地可视化数据可看出离群点？如何度量数据对象之间的相似性或相异性？

2.1数据对象与属性类型

数据集是由数据对象组成。一个数据对象代表一个实体。数据对象用属性描述。数据对象也称样本、实例、数据点或对象。如果数据对象存放在数据库中，则是数据元组，数据库的行对应于数据对象，而列对应于属性。

1）什么是属性

属性(attribute)是一个数据字段，表示数据对象的一个特征。

属性、维（dimension）、特征（feature）和变量（variable）表示同样概念。

“维”一般用在数据仓库中。

“特征”用在机器学习中。

“变量”用在统计学中。

“属性”用在数据挖掘和数据库中。

给定属性的观测值称做观测。用来描述一个给定对象的一组属性称做属性向量（或特征向量）。设计一个属性（或变量）的数据分布称做单变量的（univariate）。双变量（bivariate）分布涉及两个属性。

一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。

2）标称属性

标称意味与名称相关。标称属性（nominal attribute）的值是一些符号或事物的名称。每个值代表某种类别、编码或状态，因此标称属性也被看做是分类的（categorical），这些值不必具有有意义的序，在计算科学中，这些值也可看做是枚举的（enumeration）。

标称属性值并不具有有意义的序，并且不是定量的。对于标称属性来说，要描述其集中趋势，就是通过众数（mode）来。

3）二元属性

二元属性(binaryattribute)是一种标称属性，只有两个类别或状态：0或1。二元属性也称布尔属性。如果两种状态具有同等价值或相同权重，则是对称的；如果其状态的结果不是同样重要的，则是非对称的。

4）序数属性

序数属性(ordinalattribute)，其可能的值之间具有有意义的序或秩平顶（ranking），但是相继值之间的差是未知的，适用于记录不能客观度量的主管质量评估，通常用于等级评定调查。

在数据归约中，序数属性可通过把数值量的值域划分为有限个有序类别，把数值属性离散化而得到。序数属性的中心趋势可以用它的众数和中位数（有序序列的中间值）表示，但不能定义均值。

标称、二元和序数属性都是定性的，即它们描述对象的特征，但不给出实际大小或数量。

5）数值属性

数值属性（numericattribute）是定量的，是可度量的量，用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

区间标度（interval-scaled）属性用相等的单位尺度度量。区间属性的值有序，可以为正、0或负。除了值的秩评定之外，该属性还允许比较和定量评估值之间的差。区间标度属性是数值的，可计算均值。

比率标度（ratio-scaled）属性具有固有零点的数值属性。就是说，如果度量是比率标度的，则可以说一个值是另一个的倍数（或比率）。值是有序的，可计算值之间的差，也可以计算均值、众数和中位数。

6）离散属性与连续属性

属性分类标称、二元、序数和数值类型。机器学习领域通常把属性分成离散的或连续的。离散属性具有有限或无限个数，可以用或不用整数表示。数值属性和连续属性是等同的，连续属性一般用浮点变量表示。

2.2数据的基本统计描述

参考：http://blog.csdn.net/fjssharpsword/article/details/74911180

数据的基本统计描述可识别数据的性质，发现数据值中的噪声或离群点，提供对数据总体情况的价值洞察，对数据清理非常有用。

1）中心趋势度量：均值、中位数、众数

均值对极端值敏感，可使用截尾均值（trimmed mean）。

中位数更好度量倾斜（非对称）数据，是有序数据值的中间值，把数据较高的一半与较低的一半分开的值。

众数（mode）是集合中出现最频繁的值，有单峰（unimodal）、双峰（bimodal）、三峰（trimodal）。

中列数（midrange）是数据集的最大值和最小值的平均值。

在完全对称的数据分布的单峰频率曲线中，均值、中位数和众数都是相同的中心值。在数据不对称情况下，正倾斜或负倾斜下三者则不同。

2）度量数据散步：极差、四分位数、方差、标准差和四分位数极差

极差（range）是最大值和最小值之差。

分位数（quantile）是取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。四分位数（quartile）把数据分布划分成4个相等的部分，使得每部分表示数据分布的四分之一。100分位数称做百分位数（percentile），把数据分布划分成100个大小相等的连贯集。

四分位数极差（IQR）：第1个和第3个四分位数之间的距离，描述被数据的中间一半所覆盖的范围。

分布的五数概括（five-number summary）由中位数、四分位数的第1个和第3个、最小和最大值五个观测值组成，按min、q1、median、q3、max输出。

盒图（boxplot）是一种流行的分布的直观表示。盒图体现了五数概括：盒的端点一般在四分位数上，使得盒的长度是四分位数极差IQR；中位数用盒内的线标记；盒外的两条线（胡须）延伸到最小和最大值。

方差和标准差指出数据分布的离散程度，低标准差意味着数据观测趋向于非常靠近均值，而高标准差表示数据散步在一个大的值域中。标准差是数据集发散的指示器。大型数据库中方差和标准差的计算是可伸缩的。

3）数据基本统计描述的图形显示

分位数图适用观察单变量数据分布。

直方图（histogram）或频率直方图（frequency histogram）概括给定属性X的分布的图形方法。

散点图（scatterplot）是确定两个数值变量之间存在联系、模式或趋势的有效图形方法，适用观察双变量数据分布，存在正相关、负相关、不相关三种情形。

2.3数据可视化

数据可视化（datavisualization）是通过图形表示清晰有效地表达数据。

1）基于像素的可视化技术

基于像素的技术（pixel-oriented technique）在屏幕上为每一维创建一个窗口，记录的m个维值映射到窗口中对应位置上的m个像素，像素的颜色反映对应的值。

空间填充曲线（space-filling curve），其范围覆盖了整个n维单位超立方体。可视化窗口是二维的，因此使用二维空间填充曲线。

圆弓分割技术（circle segment technique）使用圆弓形窗口，可以改善维比较，将诸维窗口并肩形成一个圆。

2）几何投影可视化技术

基于像素的可视化技术不能理解多维空间的数据分布；几何投影技术可帮助用户发现多维数据集的有趣投影。几何投影技术首要是解决如何在二维显示上可视化高维空间。

二维散点图使用笛卡尔坐标显示二维数据点；使用不同颜色或现状表示不同的数据点，可以增加第三维。

三维散点图使用笛卡尔坐标的三个坐标轴，如加上颜色，则可以显示4维数据点。

超过四维的数据集，二维和三维散点图都无效。

散点图矩阵是是二维散点图的n*n网格，提供每个维与所有其他维的可视化，支持n维数据集的可视化。

随着维数增加，散点图矩阵也将无效。平行坐标可以处理更高纬度。

平行坐标（parallelcoordinates）绘制n个等距离、相互平行的轴，每维一个；数据记录用折线表示，与每个轴在对应于相关维值上相交。平行坐标技术的主要局限是不能有效地显示具有很多记录的数据集。即便对于数千个记录的数据集，视觉上的簇和重叠都会降低可视化的可读性，自然就很难发现模式。

3）基于图符的可视化技术

基于图符的（icon-based）可视化技术使用少量图符表示多维数据值。

切尔诺夫脸（Chernofffaces）是统计学家赫尔曼∙切尔诺夫于1973年引入，把多达18个变量（维）的多维数据以卡通人脸显示。切尔诺夫脸利用人的思维能力，识别面部特征的微小差异并立即消化理解许多面部特征。通过浓缩数据，切尔诺夫脸使得数据容易被用户消化理解，有助于数据的规律和不规律性的可视化。不过在表示多重联系的能力上存在局限性，且未能显示具体的数据值。非对称的切尔诺夫脸做了技术扩展。因为脸具有垂直对称性，两边是相同的，对称就浪费，所以采用非对称可以使面部特征加倍，允许现实多达36维。

人物线条画（stickfigure）可视化技术把多维数据映射到5-段人物线条画，其中每个画都有四肢和一个躯体；两个维映射到现实轴（x和y），其余的维映射到四肢角度或长度。

4）层次可视化技术

层次可视化技术把所有维划分成子集（即子空间），这些子空间按层次可视化。

世界中的世界（worlds-within-worlds），也称n-Vision，是一种具有代表性的可视化方法。假定6维数据集可视化，先固定三维的数据值，然后对其他三维建立三维图观察，这样构成一个内世界的三维和外世界的三维。

树图（tree-map），把层次数据显示成嵌套矩形的集合。

5）可视化复杂对象和关系

可视化技术主要用于数值数据，但现在非数值数据，如文本和社会网络也要可视化和分析。

标签云（tagcloud）是用户产生的标签的统计量的可视化。标签云可分单个标签的大小表示和多个标签的人气表示。

除了复杂的数据，数据项之间的复杂关系也对可视化提出了挑战。

可视化为探索数据提供了有效的工具。

2.4度量数据的相似性和相异性

数据对象的相似性和相异性都称邻近性（proximity）。

1）数据矩阵和相异性矩阵

数据矩阵用于存放数据对象，相异性矩阵用于存放数据对象对的相异性值。对象是关系数据库的元组，也称数据样本或特征向量。相似性和相异性主要基于内存的聚类和最近邻算法并在数据矩阵和相异性矩阵两类数据结构上运行。

数据矩阵（datamatrix）或称对象-属性结构，用矩阵n*p表示（n个对象p个属性）存在n个数据对象。

相异性矩阵（dissimilaritymatrix）或称对象-对象结构：存放n个对象两两之间的邻近度（proximity），用n*n矩阵表示；其中d(i,j)是对象i和对象j之间的相异性或差别的度量，是一个非负值，对象i和j高度相似或接近时，值接近0，d(i,j)=d(j,i)矩阵是对称的。相似性度量可以表示称相异性度量的函数，如对于标称数据，sim(i,j)=1-d(i,j)是对象i和j之间的相似性。

数据矩阵由两种实体或事物组成，即行（代表对象）和列（代表属性），因而数据矩阵经常被称为二模（two-mode）矩阵；相异性矩阵只包含一类实体，因此称为单模（one-mode）矩阵。

2）标称属性的邻近性度量

设一个标称属性的状态数目是M，状态可以用字母、符号或者一组整数表示（整数只用于数据处理，不代表任何特定的顺序）。

两个对象i和j之间的相异性根据不匹配率来计算：d(i,j)=(p-m)/p，其中m是匹配的数目（即i和j取值相同状态的属性数），而p是刻画对象的属性总数。可通过赋予m较大的权重，或赋给有较多状态的属性的匹配更大的权重来增加m的影响。相似性公式sim(i,j)=1-d(i,j)=m/p。

3）二元属性的邻近性度量

基于对称二元属性（每个状态同等重要）的相异性称做对称的二元相异性；如果两个状态不是同等重要的，则称为非对称的二元相异性。

对象j

对象i

sum

q+r

s+t

sum

q+s

r+t

其中q是对象i和对象j都取1的属性数，r是对象i取1、对象j取0的属性数，r是对象i取0、对象j取1，t是对象i和j都取0的属性数，属性总数是p=q+r+s+t。

对称的二元相异性：d(i,j)=(r+s)/(q+r+s+t)。

非对称的二元相异性：d(i,j)=(r+s)/(q+r+s)，假设0值是不重要的，则t可认为是不重要而被忽略。

非对称的二元相似性：sim(i,j)=1-d(i,j)=q/(q+r+s)，同样假设0值是不重要的，忽略t值，称做Jccard系数。

4）数值属性的相异性：闵可夫斯基距离

数值属性刻画的对象的相异性的距离度量，包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。

5）序数属性的邻近性度量

序数属性的值之间是有意义的序或排位，而相继值之间的量值未知。序数属性也可以通过把数值属性的值域划分成有限个类别，对数值属性离散化得到。

令序数属性可能的状态数为M，这些有序的状态定义一个排位1,…,M_f。在计算对象间的相异性时，序数属性的处理与数值属性类似。假设f是用于描述n个对象的一组序数属性之一，关于f的相异性计算步骤如下：

第一：第i个对象的f值为x_if，属性f有M_f个有序的状态，表示排位1,…, M_f，用对应的排位r_if∈{1,…, M_f}取代x_if；

第二：每个序数属性都有不同的状态数，所以将每个属性的值域映射到[0,1]上，以便每个属性都有相同的权重。用z_if代替第i个对象r_if来实现数据规格化，z_if=(r_if-1)/( M_f-1)；

第三：相异性计算可以参照数值属性的距离度量来计算，使用z_if作为第i个对象的f值。

6）混合类型属性的相异性

一般情况下，一个对象是由混合多种类型属性所刻画的。如果对每种类型单独分析，独立结果的整合并不有效的。因此需要将所有属性类型一起处理，将不同的属性组合在单个相异性矩阵中，把所有有意义的属性转换到共同区间[0,1]上。

2.5小结

1）数据集是由数据对象组成。数据对象代表实体。数据对象用属性描述。属性可以使标称的、二元的、序数的或数值的。

2）标称（或分类）属性的值是符号或事物的名字，其中每个值达标某种类别、编码或状态。

3）二元属性是仅有两个可能状态（如1和0，真和假）的标称属性。如果两个状态同等重要，则该属性是对称的，否则它是非对称的。

4）序数属性是其可能的值之间具有有意义的序或排位，但相继值之间的量值未知的属性。

5）数值属性是定量的（即可测量的量），用整数或实数值表示。数值属性的类型可以是区间标度的或比率标度的。区间标度属性的值用固定的、相等的单位测量。比率标度属性是具有固有0点的数值属性。

6）基本统计描述为数据预处理提供了分析基础。数据概括的基本统计度量包括度量数据中心趋势的均值、加权平均、中位数和众数，以及度量数据散布的极差、分位数、四分位数、四分位数极差、方差和标准差。图形表示（如盒图、分位数图、分位数-分位数图、直方图和散点图）有助于数据的可视化考察，因为对数据预处理和挖掘是有用的。

7）数据可视化技术可以是基于像素的、基于几何学的、基于图标的或层次的。这些方法用于多维关系数据。已经提出了可用于复杂数据（如文本和社会网络）可视化的技术。

8）对象相似性和相异性度量用于诸如聚类、离群点分析、最近邻分类等数据挖掘应用中。这种邻近性度量可用每种属性类型或混合属性类型的计算方法计算，如用于非对称二元属性的Jaccard系数、用于数值属性的欧几里得距离、曼哈顿距离、闵可夫斯基距离和上确界距离。对于涉及稀疏数值数据向量（如词频向量）的应用，余弦度量和Tanimoto系数通常用于相似性评估。

阅读全文

0 0