白话空间统计十七：聚类和异常值分析（Anselin Local Moran's I）

来源：互联网发布：安卓程序员好找工作吗编辑：程序博客网时间：2024/04/29 03:39

前面我们聊的各种指数，无论是莫兰指数还是P值Z得分，都是整体数据的结论，也就是所谓“全局莫兰指数（Globe Moran's I）”，也就说，不管我给你多少数据，最后你就吐出一个来给我！这算神马！当然，从名字上来看，全局数据嘛，有一个给你就不错了。实际上作为我们玩GIS的人，最喜欢的就是出一张花花绿绿的地图，比如这样的：

或者是这样的：

所以我们更希望的是将我们输入的数据，标示出明显的数值来，比如我输入1000个要素，那么你别就给我1个数据啊，怎么也得吐出1000个数据来吧，甭管什么莫兰指数，P值Z得分啥的，不能给我省了。所以这里就要用到今天我们说的Anselin LocalMoran's I方法了，而它与GlobeMoran's I的区别，如下：

所以，这种算法比较符合我们做GIS的人的思维，那么这种可视为地理信息强迫症的特效药的Anselin Local Moran's I算法，是哪位大爷提出来的呢？下面进入我们的算法科普时间：

上面这个脑门像土豆神一样明亮的老帅哥，就是ASU(美国亚利桑那州立大学)的地理与规划学院院长Luc Anselin教授，也是Anselin Local Moran'I算法的提出者，所以也就用了他的大名来标示这种算法。

如果做地理分析的，一定听说一个叫做GeoDa的软件，这个软件就是Anselin教授领导的ASU的地理空间分析和计算中心弄出来的神器。后来他的这个中心，就一直被人称为“GeoDa Center”

他在2008年的时候，当选为了美国科学院院士，与中国一样，当选院士被认为是美国学术界最高荣誉之一。

好了，起源介绍完了，下面我们来看看这种算法有些啥神奇的地方。

首先，他还是会计算各种常规的指数，比如Moran's I以及P值Z得分啥的，但是他是针对整份数据中，每一个要素都会去记录一个相应的值，算出来就会变成这个样子：

用中国每个省的GDP进行计算，算完对每一个省都会对应有一系列数据，前面三个就是每个省的Moran's I和Z得分以及P值，这个就不解释了，大家有兴趣去看以前的文章，Anselin Local Moran's I最强大的地方，就是他能够用自己身的数据，与周边的数据进行比较，生成COType这样一个字段。

COType是：聚类/异常值类型的简写（clustering / outlier Type），这个东西是啥东东呢，我们来看下面的解释：

首先，正常情况下，聚类我们认为是这样的：