Rattle :基于R的数据挖掘工具(4b):探索数据
来源:互联网 发布:鱼油哪个牌子好,知乎 编辑:程序博客网 时间:2024/06/10 03:41
(3)相关性
Correlation选项。计算数值变量间的相关系数。
相关系数可以采用pearson,kendall,spearman三种方法。会输出相关系数矩阵。
可以把结果可视化。
这个图当中,红色表示负相关,蓝色为正相关,颜色越浅相关系数(绝对值)越小,越接近直线,相关系数(绝对值越大)。
这个选项还可以探索缺失值的相关性。
数据集当中常有这样的情况:一个在某个变量上有缺失值的观测在别的变量上也很可能有缺失值。
选择ExploreMissing并执行后,会输出相关系数矩阵,这里的相关性表示的是两个变量在缺失值的数量上的联系。这个矩阵包括所有带有缺失值的变量(包括属性变量)
在计算缺失值相关性时,应把Data标签的Partition选项关闭,来保证对完整的数据集计算。
Hierarchical选框,计算层次相关性。
输出一个可视化的结果:
事实上,这个图形就是使用变量间的相关性按照层次聚类法(系统聚类法)来对变量进行分类。聚类的距离是变量间的相关性。
(4)主成分
Principal components 选框提供主成分分析来探索数据。
通常主成分分析作为一种数据降维的方法。在数据探索当中使用主成分可以用来发现数据集中用来解释样本变差的重要变量。样本的各个主成分就是用来描述数据最大变差的互不相关的原始变量的线性组合。
Rattle计算主成分,有两种方法,一种是计算样本协方差矩阵的特征值和特征向量(国内的教科书常用这种方法)(Eigen)。另一种方法是对数据矩阵进行奇异值分解(SVD)。
作为结果,在SVD方法中,给出标准差,主成分系数和贡献率,累计贡献率。
在Eigen方法中,只给出标准差和贡献率,累计贡献率。两种计算的结果是有差异的。
同时,两种结果都会画出碎石图和biplot图
下面是以weather.csv数据集为例,以SVD方法的结果:
上一个是碎石图,用来表示各个主成分的相对重要程度,可以作为选择主成分的一种直观依据。
下一个是biplot图。这个图给出了样本点在第一主成分和第二主成分坐标系下的位置(即主成分得分),同时表示了这些样本点在原始变量坐标系中的相对位置,图中红色箭头即表示原始变量坐标系。原始变量以红色标出,黑色为样本点。
(5)交互图
可以用latticist和GGobi两种方法,以交互的方式探索数据。其中latticist依赖R的lattice作图系统,而GGobi依赖同名的软件。需要安装GGobi软件,以及相应的rggobi包。
我们可以利用它们做出散点图,条形图和平行坐标图。
除此之外,还有一个Plot Buider选框,可以制作多种类型的统计图。这里用了Java的技术。
具体形式,独立成篇吧。
Correlation选项。计算数值变量间的相关系数。
相关系数可以采用pearson,kendall,spearman三种方法。会输出相关系数矩阵。
可以把结果可视化。
这个图当中,红色表示负相关,蓝色为正相关,颜色越浅相关系数(绝对值)越小,越接近直线,相关系数(绝对值越大)。
这个选项还可以探索缺失值的相关性。
数据集当中常有这样的情况:一个在某个变量上有缺失值的观测在别的变量上也很可能有缺失值。
选择ExploreMissing并执行后,会输出相关系数矩阵,这里的相关性表示的是两个变量在缺失值的数量上的联系。这个矩阵包括所有带有缺失值的变量(包括属性变量)
在计算缺失值相关性时,应把Data标签的Partition选项关闭,来保证对完整的数据集计算。
Hierarchical选框,计算层次相关性。
输出一个可视化的结果:
事实上,这个图形就是使用变量间的相关性按照层次聚类法(系统聚类法)来对变量进行分类。聚类的距离是变量间的相关性。
(4)主成分
Principal components 选框提供主成分分析来探索数据。
通常主成分分析作为一种数据降维的方法。在数据探索当中使用主成分可以用来发现数据集中用来解释样本变差的重要变量。样本的各个主成分就是用来描述数据最大变差的互不相关的原始变量的线性组合。
Rattle计算主成分,有两种方法,一种是计算样本协方差矩阵的特征值和特征向量(国内的教科书常用这种方法)(Eigen)。另一种方法是对数据矩阵进行奇异值分解(SVD)。
作为结果,在SVD方法中,给出标准差,主成分系数和贡献率,累计贡献率。
在Eigen方法中,只给出标准差和贡献率,累计贡献率。两种计算的结果是有差异的。
同时,两种结果都会画出碎石图和biplot图
下面是以weather.csv数据集为例,以SVD方法的结果:
上一个是碎石图,用来表示各个主成分的相对重要程度,可以作为选择主成分的一种直观依据。
下一个是biplot图。这个图给出了样本点在第一主成分和第二主成分坐标系下的位置(即主成分得分),同时表示了这些样本点在原始变量坐标系中的相对位置,图中红色箭头即表示原始变量坐标系。原始变量以红色标出,黑色为样本点。
(5)交互图
可以用latticist和GGobi两种方法,以交互的方式探索数据。其中latticist依赖R的lattice作图系统,而GGobi依赖同名的软件。需要安装GGobi软件,以及相应的rggobi包。
我们可以利用它们做出散点图,条形图和平行坐标图。
除此之外,还有一个Plot Buider选框,可以制作多种类型的统计图。这里用了Java的技术。
具体形式,独立成篇吧。
0 0
- Rattle :基于R的数据挖掘工具(4b):探索数据
- Rattle :基于R的数据挖掘工具(4a):探索数据
- Rattle :基于R的数据挖掘工具(3):载入数据
- Rattle :基于R的数据挖掘工具(2):功能概览
- Rattle :基于R的数据挖掘工具:简介和安装
- Rattle :基于R的数据挖掘工具:功能概览
- R语言数据挖掘开源工具rattle的安装
- Rattle :基于R的数据挖掘工具(1):简介和安装
- Rattle :基于R的数据挖掘工具(1):简介和安装
- 安装R可视化挖掘工具Rattle
- 基于R的数据挖掘的包
- 一个基于java的数据挖掘工具
- R数据挖掘技术-基于R语言的数据挖掘和统计分析技术
- R语言数据挖掘(1) 探索性数据分析
- 数据挖掘-数据探索
- GSE2603基于R语言对乳腺癌转移的数据挖掘
- 数据挖掘工具R软件与Weka的比较分析
- 数据挖掘工具R软件与Weka的比较分析
- 窗体中实现时间实时显示
- js闭包的用途
- 通过rowid逻辑并行抽取数据
- socket 与 vfs
- 线性表(二)
- Rattle :基于R的数据挖掘工具(4b):探索数据
- java常用设计模式
- 第十三周项目5-字符串操作:字符统计
- 第三天学习
- 异常处理系列:Exception in thread "main" org.hibernate.HibernateException: Javassist Enhancement failed:cn.
- openwrt安装内核模块* satisfy_dependencies_for
- select 下拉列表可编辑
- 通过C#理解多态
- win7 64bit IIS相关设置