数据挖掘导论 (三)
来源:互联网 发布:java零基础到项目实战 编辑:程序博客网 时间:2024/06/05 07:46
第三章 探索数据
汇总统计
频率和众数
频率:即该类的数量占总数的百分比
分类属性的众数:具有最高频率的值
百分位数计算:其实就是计算低于P%的数据的最大值
第1步:以递增顺序排列原始数据(即从小到大排列)。
第2步:计算指数i=np%
第3步:
l)若 i 不是整数,将 i 向上取整。大于i的毗邻整数即为第p百分位数的位置。
2) 若i是整数,则第p百分位数是第i项与第(i+l)项数据的平均值。
下面我们开始计算P10:
- 按照上述的计算公式i=n*p%=10*10%=1,其中n为1到10的整数个数,也就是10,P=10,所以我们得到i=1
- i=1是整数,那我们计算P10=(x(i)+x(i+1))/2=(1+2)/2=1.5
剩下的大家可以按照这个公式以此计算了。
均值和中位数
均值:就是数据的平均值 中位数:数据最中间的数(但是要从小到大顺序排列)
因为均值对于离群值很敏感,有时使用截断均值。指定0和100间的百分位数p,丢弃高端和低端的(p/2)%的数据,然后计算均值。意思就是说,把前(p/2)%和后(p/2)%的数据扔掉,计算中间的数据均值 就能避免离群值。
极差和方差
极差:最大值与最小值的差
方差:每个数与平均值的差的均方误差。用以体现变化程度因为均值受离群值影响,所以方差也很敏感。
绝对平均偏差 AAD ,中位数绝对偏差 MAD ,四分位数极差IQR
多元汇总统计
协方差矩阵:由不同属性的协方差构成的矩阵
协方差上的对角线,是属性的方差。即
对于数据探索,相关性矩阵比协方差更可取,表示每两个属性的相关性。
可视化
一般概念
- 表示:将数据映射到图形元素 即选择什么样的图
- 安排:即如何排列数据 呈现更好的效果
- 选择:即选择要可视化的属性 是否需要删除或不突出某些属性
技术
- 少量属性的可视化
1、茎叶图:可以用来观测一维整形或连续型数据的分布。茎是高位数字,叶是低位数字 如图
2、直方图:将茎叶图用条形图来表示
3、二维直方图:将每个属性划分成区间,两个区间集定义值。
4、盒装图:盒的上端是第75个百分位数,下端是第25个百分位数,盒中的线是第五十个百分位数的值。
5、饼图:通常用于相对较少的分类属性,用面积表示相对频率。但是在技术上,平方图更可取。因为相对面积大小很难确定
6、散布图
用途:1、图形化地显示两个属性之间的关系。2、当类标号给出时,考察两个属性将类分开的程度。
使用散布图的方法:也可以根据三个属性而不是两个属性来显示每个对象
- 可视化时间空间数据
1、等高线图:描述温度或海拔高度
2、曲面图:描述数学函数,或变化相对光滑的物理曲面
- 可视化高维数据
1、矩阵:存储图像的亮度和颜色(如果类标号已知,重新排列次序,让同类的对象聚集在一起,是很有用的方法。如果属性列值域不同,则要进行标准化,让均值为0,标准差为1,避免值大的属性左右图形)
2、平行坐标系:每个属性一个坐标轴,相互平行,最后用连线连接
缺点:如果线交叉太多,则图形会变得模糊不清。需要安排坐标轴,以得到较少交叉的坐标轴序列
3、星型坐标和Chernoff脸
注意事项
理解,清晰性,一致性,有效性,必要性,真实性
OLAP和多维数据分析
事实表:
用多维数组表示数据
步骤:1、维的识别 2、分析所关注的属性的识别
分析多维数据
数据立方体:计算聚集量 (计算边缘总和)
维规约和转轴(减少维度,转轴:在除两个维之外的所有维上聚集,即只保留两个维)
0 0
- 数据挖掘导论 (三)
- 数据挖掘导论 (一)
- 数据挖掘导论 (二)
- 数据挖掘导论--数据
- 数据挖掘导论 读书笔记(一)
- 数据挖掘导论 读书笔记(一)
- 【数据挖掘导论】读书笔记 - (1)
- 【笔记】数据挖掘导论(持续更新)
- 《数据挖掘导论》学习笔记(一)
- 《数据挖掘导论》学习笔记(二)
- 数据挖掘导论笔记(1)
- 数据挖掘导论
- 数据挖掘导论
- 数据挖掘导论
- 数据挖掘导论读书笔记
- 《数据挖掘导论》学习
- 数据挖掘--Apriori导论
- 数据挖掘导论 笔记
- 欢迎使用CSDN-markdown编辑器
- 打开Word,PDF等文件(使用第三方应用)
- 虚拟机3中网络模式
- Android客户端与服务器交互中的token
- Android 热补丁动态修复框架小结
- 数据挖掘导论 (三)
- leetcode 24. Swap Nodes in Pairs
- socket之无连接编程(UDP)
- DB2 SQLCODE
- C++启动外部程序
- 【Sicily】1035. DNA matching
- 【办公-WORD】vba 统一改变word文档所有的图片大小 然后导出成PDF
- RNN以及LSTM的介绍和公式梳理
- 好的评论记录