如何使用R进行数据展现?且看使用iris数据可视化实例
来源:互联网 发布:免费的一级域名 编辑:程序博客网 时间:2024/05/17 22:05
iris数据的详细介绍如下:
首先,要查看iris数据集的大小和结构,其维度和名称分别使用函数dim 和names获取,函数str 和attributes返回数据的结构和属性。
dim(iris)
names(iris)
str(iris)
attributes(iris)
接下来,查看数据的前五行,返回第一和最后一行,使用head和tail
iris[1:5,]
head(iris)
tail(iris)
还可以查找某一列的值:
例如,下面的两行代码可用来获取到Sepal.Length的前10个值。
iris[1:10, "Sepal.Length"]
iris$Sepal.Length[1:10]
每一个数值型变量的分布情况,可用函数summary进行查看。该函数的返回值是变量中的最小值、最大值、平均值、中位数、第一四分位数(25%)和第三四分位数(75%)。
对于因子(或分类变量)而言,函数返回的是每一个等级水平的频数。
summary(iris)
平均值、中位数和极差也可以分别使用函数mean、median和range获取,获取四分位数和百分位数可以使用quantile函数,代码如下所示:
quantile(iris$Sepal.Length)
quantile(iris$Sepal.Length, c(.1, .3, .65))
接下来,使用函数var查看Sepal.Length的方差,使用hist绘制分布直方图,使用函数density计算密度估计值。
var(iris$Sepal.Length)
hist(iris$Sepal.Length)
密度图
plot(density(iris$Sepal.Length))
饼图
因子的频数可以由函数table计算,然后使用函数pie绘制饼图,绘制条形图。或使用函数barplot绘制条形图。
table(iris$Species)
pie(table(iris$Species))
条形图
barplot(table(iris$Species))
查看了单个变量的分布后,还需要展现两个变量之间的关系。下面使用函数cov和cor 分别计算变量之间的协方差和相关系数。
cov(iris$Sepal.Length, iris$Petal.Length)
cov(iris[,1:4])
cor(iris$Sepal.Length, iris$Petal.Length)
cor(iris[,1:4])
接下来,使用函数aggregate计算每一个鸢尾花种(species)的sepal.Lellgth的统计数据。
aggregate(Sepal.Length ~ Species, summary, data=iris)
然后,使用函数boxplot绘制盒图(又称为盒形-虚线图),以展示数据分布的中位数、第一四分位数和第三四分位数(即累积分布中的位于50%、25%、75%位置上的点),以及离群点。
盒图中间的横线表示中位数。图示四分位差(IQR),即第三四分位数(75%)与第一四分位数(25%)的差值。
boxplot(Sepal.Length~Species, data=iris)
首先,要查看iris数据集的大小和结构,其维度和名称分别使用函数dim 和names获取,函数str 和attributes返回数据的结构和属性。
dim(iris)
names(iris)
str(iris)
attributes(iris)
接下来,查看数据的前五行,返回第一和最后一行,使用head和tail
iris[1:5,]
head(iris)
tail(iris)
还可以查找某一列的值:
例如,下面的两行代码可用来获取到Sepal.Length的前10个值。
iris[1:10, "Sepal.Length"]
iris$Sepal.Length[1:10]
每一个数值型变量的分布情况,可用函数summary进行查看。该函数的返回值是变量中的最小值、最大值、平均值、中位数、第一四分位数(25%)和第三四分位数(75%)。
对于因子(或分类变量)而言,函数返回的是每一个等级水平的频数。
summary(iris)
平均值、中位数和极差也可以分别使用函数mean、median和range获取,获取四分位数和百分位数可以使用quantile函数,代码如下所示:
quantile(iris$Sepal.Length)
quantile(iris$Sepal.Length, c(.1, .3, .65))
接下来,使用函数var查看Sepal.Length的方差,使用hist绘制分布直方图,使用函数density计算密度估计值。
var(iris$Sepal.Length)
hist(iris$Sepal.Length)
密度图
plot(density(iris$Sepal.Length))
饼图
因子的频数可以由函数table计算,然后使用函数pie绘制饼图,绘制条形图。或使用函数barplot绘制条形图。
table(iris$Species)
pie(table(iris$Species))
条形图
barplot(table(iris$Species))
查看了单个变量的分布后,还需要展现两个变量之间的关系。下面使用函数cov和cor 分别计算变量之间的协方差和相关系数。
cov(iris$Sepal.Length, iris$Petal.Length)
cov(iris[,1:4])
cor(iris$Sepal.Length, iris$Petal.Length)
cor(iris[,1:4])
接下来,使用函数aggregate计算每一个鸢尾花种(species)的sepal.Lellgth的统计数据。
aggregate(Sepal.Length ~ Species, summary, data=iris)
然后,使用函数boxplot绘制盒图(又称为盒形-虚线图),以展示数据分布的中位数、第一四分位数和第三四分位数(即累积分布中的位于50%、25%、75%位置上的点),以及离群点。
盒图中间的横线表示中位数。图示四分位差(IQR),即第三四分位数(75%)与第一四分位数(25%)的差值。
boxplot(Sepal.Length~Species, data=iris)
阅读全文
0 0
- 如何使用R进行数据展现?且看使用iris数据可视化实例
- 使用R进行数据可视化套路之-直方图
- 使用R进行数据可视化套路之-茎叶图、盒形图
- 使用TensorBoard进行数据可视化
- 使用ObjectDataSource展现数据
- 使用R进行数据可视化套路之-多重散点图、连接Mysql获取数据
- Iris数据集可视化分析
- iris数据集的可视化
- 使用R进行数据可视化套路之-散点图、图形分隔、时间序列
- 使用R进行数据可视化套路之-条形图、Cleveland点图、矩阵
- 使用D3.js进行数据可视化
- 数据挖掘-oneR算法-Iris数据集分析-使用oneR算法进行分类预测(五)
- 利用R语言进行交互数据可视化
- python爬虫+R数据可视化 实例
- 如何使用zeppelin实现大数据可视化
- 如何在数据展现中有效地使用文本?
- 使用不同的SVM对iris数据集进行分类并绘出结果
- 使用sklearn中的Iris植物分类数据集进行特征检验与预测分析
- ajaxSubmit提交两遍
- Eclipse 指定JDK
- Java文件读写操作
- C语言二维数组的大小的获取
- Spring框架分为哪七大模块?
- 如何使用R进行数据展现?且看使用iris数据可视化实例
- POJ 1013 题解
- 虚析构函数问题:为什么要将基类的的析构函数设成虚的?
- 矩阵乘法
- bzoj 1878: [SDOI2009]HH的项链
- Profinet从站开发(3)- 开发必备的软硬件
- AtCoder Beginner Contest 070 Transit Tree Path
- hdu 6112
- 结构体的高级话题