数据挖掘导论（三）

来源：互联网发布：java零基础到项目实战编辑：程序博客网时间：2024/06/05 07:46

第三章探索数据

汇总统计

频率和众数

频率：即该类的数量占总数的百分比

分类属性的众数：具有最高频率的值

百分位数计算：其实就是计算低于P%的数据的最大值

第1步：以递增顺序排列原始数据（即从小到大排列）。

第2步：计算指数i=np%

第3步：

　　l）若 i 不是整数，将 i 向上取整。大于i的毗邻整数即为第p百分位数的位置。

　　2) 若i是整数，则第p百分位数是第i项与第（i＋l）项数据的平均值。

下面我们开始计算P10：

按照上述的计算公式i=n*p%=10*10%=1，其中n为1到10的整数个数，也就是10，P=10，所以我们得到i=1
i=1是整数，那我们计算P10=(x(i)+x(i+1))/2=(1+2)/2=1.5

剩下的大家可以按照这个公式以此计算了。

均值和中位数

均值：就是数据的平均值中位数：数据最中间的数（但是要从小到大顺序排列）

因为均值对于离群值很敏感，有时使用截断均值。指定0和100间的百分位数p，丢弃高端和低端的（p/2）%的数据，然后计算均值。意思就是说，把前（p/2）%和后（p/2）%的数据扔掉，计算中间的数据均值就能避免离群值。

极差和方差

极差：最大值与最小值的差

方差：每个数与平均值的差的均方误差。用以体现变化程度因为均值受离群值影响，所以方差也很敏感。

绝对平均偏差 AAD ，中位数绝对偏差 MAD ，四分位数极差IQR

多元汇总统计

协方差矩阵：由不同属性的协方差构成的矩阵

协方差上的对角线，是属性的方差。即

对于数据探索，相关性矩阵比协方差更可取，表示每两个属性的相关性。

可视化

一般概念

表示：将数据映射到图形元素即选择什么样的图
安排：即如何排列数据呈现更好的效果
选择：即选择要可视化的属性是否需要删除或不突出某些属性

技术

少量属性的可视化

1、茎叶图：可以用来观测一维整形或连续型数据的分布。茎是高位数字，叶是低位数字如图

2、直方图：将茎叶图用条形图来表示

3、二维直方图：将每个属性划分成区间，两个区间集定义值。

4、盒装图：盒的上端是第75个百分位数，下端是第25个百分位数，盒中的线是第五十个百分位数的值。

5、饼图：通常用于相对较少的分类属性，用面积表示相对频率。但是在技术上，平方图更可取。因为相对面积大小很难确定

6、散布图

用途：1、图形化地显示两个属性之间的关系。2、当类标号给出时，考察两个属性将类分开的程度。

使用散布图的方法：也可以根据三个属性而不是两个属性来显示每个对象

可视化时间空间数据

1、等高线图：描述温度或海拔高度

2、曲面图：描述数学函数，或变化相对光滑的物理曲面

可视化高维数据

1、矩阵：存储图像的亮度和颜色（如果类标号已知，重新排列次序，让同类的对象聚集在一起，是很有用的方法。如果属性列值域不同，则要进行标准化，让均值为0，标准差为1，避免值大的属性左右图形）

2、平行坐标系：每个属性一个坐标轴，相互平行，最后用连线连接

缺点：如果线交叉太多，则图形会变得模糊不清。需要安排坐标轴，以得到较少交叉的坐标轴序列

3、星型坐标和Chernoff脸

注意事项

理解，清晰性，一致性，有效性，必要性，真实性

OLAP和多维数据分析

事实表：

用多维数组表示数据

步骤：1、维的识别 2、分析所关注的属性的识别

分析多维数据

数据立方体：计算聚集量（计算边缘总和）

维规约和转轴（减少维度，转轴：在除两个维之外的所有维上聚集，即只保留两个维）

0 0

数据挖掘导论 （三）

第三章 探索数据