数学之路(2)-数据分析-R基础(23)

来源:互联网 发布:opencv 排序算法 编辑:程序博客网 时间:2024/06/01 07:21

19)分析数据集

接上篇博文~

继续以全球近一周地震数据为例。

我们先将变量放到搜索路径上

> attach(earthquake)

先分析一下地震震深:

> summary(Depth)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 

   0.10    5.80   12.15   30.82   38.00  630.70      39 

Min表示地震震深最小值,Max表示最大值,Median为中位数,Mean为平均值。

我们试着从下面的散点图中观察一下地震震深与震级的关系:


Depth是震深,Magnitude是震级,很有意思的是表面上看过去一周中DepthMagnitude之间没有关系,仔细观察后这个图,发现一个有趣的结果:当震深超过300后,震级都接近5或在5以上,而在300以内时,震级并不确定。

可以做关于震深的直方图

hist(Depth)


这些只是根据一个星期的数据分析的结果,不一定就代表真正的答案。

lines函数可完成画线

比如说我们绘制一个(10,40)(20,50)(30,60)的散点图,并将点连成线

> plot(c(10,20,30),c(40,50,60))

> lines(c(10,20,30),c(40,50,60))


Fivenum函数返回以下数据:minimum, lower-hinge, median, upper-hinge, maximum

> fivenum(Magnitude)

[1] 1.0 1.3 1.7 2.5 6.5

表示震级最小为1.0,最大为6.5,中位数为1.3,通过1.3将一组数据分为上下两组,然后再计算上下两组的中位数1.32.5

rug函数显示实际的数据点

>  hist(Magnitude)

> rug(Magnitude)


利用直方图估计密度函数存在密度函数是不平滑的,密度函数受子区间宽度影响很大、当数据维数超过2时有局限性等问题,因此基于核密度估计的方法可解决这些问题。

核密度估计又叫核函数估计(kernel density estimation),是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

我们使用density函数进行核密度估计:

> hist(Magnitude,prob=TRUE)

> lines(density(Magnitude))

累积分布函数能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分 ,与概率密度函数相对,定义为随机变量小于或者等于某个数值的概率PX<=x),即:F(x) = P(X<=x)

Ecdf函数完成累积分布函数的计算,我们计算一下震级的累积分布

> plot(ecdf(Magnitude),do.points=FALSE,verticals=TRUE)

本博客所有内容是原创,未经书面许可,严禁任何形式的转载。

ttp://blog.csdn.net/u010255642


原创粉丝点击