数据挖掘导论可视化部分总结

来源:互联网 发布:小猪微信cms源码下载 编辑:程序博客网 时间:2024/05/16 07:38

三个主题:汇总统计、可视化技术、联机分析处理OLAP

1-汇总统计的几个值:
* 频率
* 众数
* 百分位数:顾名思义,有序数据集合的百分位点的数值
* 均值
* 中位数
* 极差:数据的最大和最小的差
* 方差

        使用可视化技术可以快速地吸取大量可视化信息,有时候,使用非可视化工具来分析,以可视化来描述结果,并将结果交与领域专家进行快速排查,可以直接聚焦到重要模式上。

2-可视化数据的技术:
* 茎叶图:针对少量数据,来观测一维整型或连续数据,简单地说就是一种形式的直方图,例如,数据是一组2位数的整型,高位数字为茎,低位数字为叶,在画直方图时,纵轴为茎,横轴为叶,表现为横向的直方图。
* 直方图:太熟悉了,不说了
* 二维直方图:好吧,其实就是加了一条属性,将直方图显示由长方形变成长方体,更容易发现两个属性同时出现的模式,但是也因为柱体遮挡,观察不便。
* 盒状图:感觉是直方图的变形啊,直方图是将数据的多个区间用多个长方形展示,盒状图是将数据的几个重要值用一个长方形展示,这几个值分别是(10%、25%、50%、75%、90%百分位数)。
* 饼图:也很熟悉吧,不说
* 散布图:以二维简单说就是在一个平面上根据两个属性来描点,以此来观察两个属性的相关程度和两个属性能否将数据分成两个或多个类。
* 等高线图:学过地理的都知道
* 曲面图:学过高数的都知道
* 矢量场图:学过物理的都知道
* 星形图:一个点引生出几条线,一个属性一条线,然后将线的顶点连线,哈哈,一个星星(尴尬),可以用于快速比较具有少量数据的对象。

3-可视化原则(搬运工):
* 理解:图形能否透彻地理解变量之间的关系。
* 清晰性:最重要的元素或关系在视觉上突出吗?
* 一致性:与以前解释图形的标记、符号、特征一致吗?(自成一派好像也没什么关系)
* 有效性:用尽可能简单地图形来描绘复杂关系的能力,图形元素的使用经济吗?
* 必要性:与文本或者表格相比,图形的表现是必要的吗?
* 真实性:图形表示真实值的能力,使用图形可以准确的定标定位吗?

4-多维数组分析数据:

        通常数据的表示都是用表来实现的,多维数组分析数据,这里的一个维解释为数据的一条属性,对属性值进行量化,使得属性值可以充当数组的下标,属性值的个数就是维的大小,原先表格的一行数据在多维数组中则转化为一个单元。

        数据的多维表示,连同所有可能的总和(聚集)称作数据立方体(data cube),这是定义,如time属性可能有日-周-月-季年的从底层到高层的概念分层,将数据从低层汇总到高层可以有效减少分析数据的规模,而不损失感兴趣的数据信息,数据立方体对维的数量和各个维的大小不做要求,

5-分析多维数据的方法:
* 维归约:维=属性,维归约,减少分析的属性个数,大部分数据挖掘算法要求维的个数要少,而且如果维的个数过多容易引起维灾难,使得许多分类和聚类算法准确率降低,质量下降.
* 基于PCA的维归约:PCA(principle components analysis)主成分分析,也叫K-L方法,对于n维数据,搜索k个最能代表数据的n为正交向量,将高维数据投影到低维空间。因为筛选出了主要成分,所以可以很好的进行稀疏数据的处理。
–分析的基本步骤:
1-规范化输入的数据:所有属性落在相同的区间内;
2-计算k个标准正交向量,即主成分;
3-每个输入数据的向量都是这k个主成分向量的线性组合;
4-主成分按照重要程度降序排序。
* 基于聚集的维归约:就是将一个维的数据汇总成一个数据,以此来降维。
* 转轴:(pivoting)是指指定两个维之外的所有维进行聚集
* 切片:(slicing)很好理解,指定一个维或者多个维的特定值,从原数据取出一组数据。
* 切块:(dicing)很好理解,指定一个维或者多个维的一个区间,从原数据取出一组数据。
* 上卷:(roll up)将数据从低层次汇总到高层次进行分析。
* 下钻:(drill down)将数据从高层次分解到低层次进行分析。

原创粉丝点击