郑重道歉：聚类和异常值分析（Anselin Local Moran's I）修正篇

来源：互联网发布：l800清零软件编辑：程序博客网时间：2024/05/01 20:18

写这篇文章之前，首先对所有的读者进行诚挚的歉意，在白话空间统计十七章聚类和异常值分析里面，对HH\HL\LH\LL四种情况的描述出现了严重的问题，根据ArcGIS计算出来的数据就直接进行描述，结果发生了想当然的结果。

在这里诚恳而且郑重的道歉，特别是对那些被我的文章误导了的同学。

第二，对河北师大李同学的提醒进行真诚的感谢，如果不是你的提醒，我可能还不知道我发生了如此重大的错误。正因为李同学的提醒，虾神重读了luc Anselin教授1995年的论文《Local Indicators of Spatial Association-LISA》，并且专门使用了GeoDa进行验证，最后终于发现了上一篇文章里面对于四种结论的图片是错误的，错得相当严重，所以本文对十七章进行全面修正。

在anselin教授的论文里面，对HH\HL\LH\LL四种情况的象限分配描述是这样的：

具体来解释就是：

而我在上一篇文章里面，把第三第四象限搞反掉了，这点是错误的，如下：

这样就是正确的，但是为什么会出现如此严重的错误呢？是因为在ArcGIS里面，只会去计算Moran's i和z得分，所以部分只使用ArcGIS而没有用过GeoDa的人（主要是虾神这种老是自以为是而且还有些孤陋寡闻的土鳖虾），把X轴和Y轴当成了莫兰指数和Z得分，想理所当然的画出了一个散点图，而且还洋洋得意的以为是对的。

实际上第十七话的图和解释是严重错误！请大家原谅。

实际上第十七话的图和解释是严重错误！请大家原谅。

实际上第十七话的图和解释是严重错误！请大家原谅。

重要的事情说三遍，诚恳道歉。

在重读了LISA这篇论文之后，发现X轴Y轴的意思完全和直接计算出来的moran's i和z得分完全不是一回事，实际上，是这样的：

(lisa值为观测值*滞后值，结果正值为聚集，负值为异常）

PS:多谢@wchuns 指出我的错误，让我有机会再次更正

而我上次写成了这个样子：

两个轴的解释如下：

首先，X是标准化之后的观测值：

比如我用中国2012年的市级人口数据（男），那么计算如下：

然后Y轴是所谓的空间滞后值（spatial lag），对这个空间滞后模型也是Anselin教授在1988年提出来的，其表示的是：

该观测值周围邻居的加权平均。计算过程如下：

首先从空间权重矩阵中，获取该要素的邻接要素，比如2388（石家庄）这个要素，他的邻接要素一共有6个，如下：

然后获取6个邻接要素的标准化观察值，并且进行加权平均，最后将这个加权平均值赋予中心要素。

全部计算完成之后，X轴和Y轴就全部计算出来了。

接下去就可以画出散点图了：

剩下的内容，就是通过Z得分和P值，来确定该数据是否具有统计显著性：
首先还是P值，P值没有意义的话，就是瞎猜，所以首先按照最高等级的99%可信度，将P值设为0.01，绘制如下：

大部分数据集中在第三象限，也就是LL（低值聚类），当我们把置信度调整到0.05，再看：

把四个象限尺度放大：

最后，贴出Luc Anselin教授的原始论文地址：
http://isites.harvard.edu/fs/docs/icb.topic868440.files/Anselin1995%20LISA.pdf

geoda软件的下载地址大家请自行搜索（最后一个好消息：这个东东下载不用翻墙哦……此次应有掌声）

最后，再次对河北师大李同学表示感谢。

2 0