白话空间统计之十:标准距离

来源:互联网 发布:虚拟化服务器软件 编辑:程序博客网 时间:2024/04/29 09:00

前言:热烈庆祝虾神人生第三十三个七夕虐狗节,正好文章又发到第十话,双喜临门……

 

好了,言归正传,昨天我们讲了方向分布工具,这个工具会生成一个标准差椭圆,其中有这样的一句话描述:

 

“短半轴表示数据分布的范围,短半轴越短,表示数据呈现的向心力越明显;反之,短半轴越长,表示数据的离散程度越大”

 

那么可能会带来一个这样的疑问(不知道大家有没有,反正我有),如果说,这些数据表现出了明显的向心力,也就是在中心附近进行了聚集,那么他们的分散和聚集程度到底是怎么样的呢?有没有方法进行度量呢?

 

所以今天我们讲的这个算法:标准距离,就是用户度量一组要素,在平均中心附近的离散或者就集中的程度。

 

我们先看看,这个工具(算法)能够输出什么结果。数据还是如昨天的那一份伤寒病例,通过标准距离工具计算,结果如下:


与方向分布不同的是,这个算法(工具)会生成一个圆形,这个圆形是以所有样本数据的平均中心为圆心,以所有数据的标准距离为半径的一个圆。

 

这个圆代表的就是所有数据对平均中心的聚集程度,半径越小,向心力就越强(集中程度越高)。它一般用来度量数据分布相对于中心点的分散或者紧密程度。

 

标准距离在空间统计里面也是一个常用的方法,因为它可提供有关中心周围要素分布的单一汇总度量值(此方法类似于通过标准差测量统计平均值周围数据值的分布)。

 

又到每日历史起源科普时间:这个算法最早是有英国的统计学家狄金森(Dickinson,G.C)在1973年提出来的(原文请自行查阅:《Statisticalmapping and the presentation of statistics》一书,当然,在60年代英国和美国一些统计学家也描述过这个算法,但是首次正式的学术出版,是在1973年),开始他的目的主要是为了说明地图在统计图形图表的重要性(也就是说给英国的统计学家们做GIS可视化的宣传),后来经过不断的发展,变成了空间统计学里面的一个重要的工具和算法。

 

算法如下(讨厌数学公式的同学请直接略过):


 

首先要计算的是平均中心,这个说了好多次了,直接跳过。接下去就是计算标准距离,从上面的公式可以看出,用的就是统计学里面的均方差算法。因为均方差(也叫标准差)主要就用来测量分布程度的,所以这里直接借鉴了这个方法。

 

除了在地图上会生成一个圆面要素以外,还会给出如下属性:


与昨天的方向分布很类似,只是没有长短半轴而已,Shape_LengShape_Area表示输出的圆面要素的周长和面积,单位与你数据的单位是一致的;当然,如果使用经纬度的,就只有参考意义了。

 

CenterXCenterY是平均中心,也是要生成的圆面的圆心。

 

StdDist就是计算出来的标准距离了。

 

因为空间分析有空间尺度这个概念,所以分析的结果,通常需要进行对比,如果有多份数据进行对比,自然就容易了,比如下面我们用2000年的数据和2001年的数据进行对比:


 

红色的三角和蓝色的三角,是我通过属性里面的坐标信息标记上去的,表示两个年度的数据中心,可以发现2000的中心比2001年的中心,更靠近长江。

 

然后下面对他们的标准距离进行比较,如下:


很容易的可以对比出,2001年的数据集中的程度要高于2000年的数据。

 

最好,关于画的这个圆并没有把所有的样本点都包含进去的问题,原因和昨天的方向分布是一样的,采用了三级标准差方式,如下表:


我这里只用了第一级标准差,也就是默认的标准差,只包含有大约68%左右的数据在这个圈里面。

 

最后我们来看看这个工具可能的应用:

 

1、可以利用两种或者多种值的分布情况进行比较。如我上面举例的伤寒病结果分析。还有就是在犯罪分析领域里面,犯罪分析家可以对袭击行为和偷窃行为的紧密度进行比较。了解不同犯罪类型的分布情况可能有助于警察制定出应对犯罪行为的策略。如果特定区域内的犯罪行为分布很紧凑,那么在该区域中心附近配置一辆警车也许就足够了。但如果分布较分散,则可能需要几辆警车同时巡查该区域,才能更有效地对犯罪行为做出响应。。

 

2、还可以对同一类型要素在不同时间段内的分布情况进行比较。例如,犯罪分析人员可以对白天盗窃行为和夜间盗窃行为进行比较,以了解白天与夜间相比,盗窃行为是更加分散还是更加紧凑。

 

3、最后,还可将要素分布与静态要素进行比较。例如,可以针对某个区域内各响应消防站在几个月内接到的紧急电话的分布情况进行度量和比较,以了解哪些消防站响应的区域较广。

1 0
原创粉丝点击