白话空间统计之:空间自相关

白话空间统计之:空间自相关

空间自相关,肯定是空间统计里面第一个拦路虎了,很多人遇上了这个高大上的词汇,立刻就发现,这五个字我好像都认识,但是到底说了啥?不知道。

如果翻开各种教材,从统计学到数学到物理学,各种解释都摆出了一副“老子就是高大上学霸,屌丝学渣勿扰”的样子,这个东西真得就那么难么?虾神我就不信了,所以:I have a dream,就是写出一个最接地气的空间统计解释来。(好大的宏愿,阿弥陀佛老天保佑,别吹炸了。)

首先,要明白一下空间自相关这个神奇的概念,不得不先说一个神奇的人物。他就是号称“近代地理学界的牛顿”的Waldo Tobler(金都 托布勒)教授。

Waldo教授1930年生于瑞士,1961年在美国华盛顿大学获得博士学位,这一年也是风起云涌的一年,当今美利坚大统领奥巴马同学就是1961年出生的。

似乎是老天爷见物理已经有了三大定律,而地理学一个也没有,于是在1969年(也有说1970年)的时候,上帝一挥手,让Waldo教授照亮地理学的天空吧。所以那一年,他发表了史称“地理学第一定律”的“Tobler’s First Law”(简称TFL),即为“all attribute values on a geographic surface are related to each other, but closer values are more strongly related than are more distant ones”翻译成大白话,就是:任何事情呢,都是有关系,只不过靠得越近,关系就越紧密。

正如牛顿的三大定律开创了经典力学体系,地理学的第一定律也为计量革命提供了理论基础,从此,空间分析和空间统计领域再也离不开这个定律了。

正如明代学者茅无仪评价孙子兵法“前孙子者,孙子不遗;后孙子者,不能遗孙子”,TFL也在地理学界做到了前者不遗,后者不能遗的境界。

依照定律,空间中的每一个事务,都是有联系的,近的事务之间的联系紧密程度,要高于距离远的事务之间的联系程度。所谓的联系紧密程度,自然也可以说,两个事务会在某一方面,有相似的地方。

那么空间自相关这个概念就被带出来了。

什么是空间自相关呢?首先我们来看看下面一个例子:

时间:课间操。

地点:学校操场。

当广播响起来的时候,所有学生都一路狂奔冲向操场(迟到要挨罚的),所以,校长在楼上,看见的应该是这样的一个场面:

怎是一个乱字了得,那么这就是所谓的“随机分布”,谁也不知道,哪个学生是哪个班的。

随着体育老师的口令,慢慢得变成了下面这个场面:

学生整整齐齐的占成了队列,每个人前后左右的距离都是一样,这个就是所谓的“均匀分布”,在这种均匀分布的情况下,照样没办法看出学生之间的关系。

5分钟后,广播体操结束,同样随着体育老师的一声口令,解散,学生们就变成了下面这个样子:

OK,现在就很明显的看出,不同的学生,自己就组成了自己的一个个小团体,这就是所谓的聚类。

那么你作为校长,自然会在脑中脑补,为什么这几个学生会自然的聚在一起呢?肯定是共同的爱好或者共同的目的,至于这个团体,有哪些共同的爱好和共同目的,就是学生之间的某种特征了,比如学习好的会自动凑在一起;或者是喜欢打球的,会凑在一起。

这种,每个学生,与他周围的学生之间,一般有一些共有的某种特征。理论上,如果有一个带有这种特征的学生出现在操场上,那么他身边出现的,就有很大可能与他有同样的特征,而且他们之间会产生潜在的依赖性。比如喜欢打球的学生,一个人肯定没办法打,所以自然需要有共同爱好的小伙伴在旁边。

这种潜在的(因为没有很明显的表现出来,所以肯定是潜在的)的相互依赖性,就是所谓的“空间自相关”。

对空间自相关的研究,是揭示空间数据分布的一个很重要的概念,而对空间自相关中的关联性程度的计算,就是研究空间自相关的主要方法了。

那么,下一期,我们来聊聊衡量空间自相关的最重要的关联程度计算指标之一:Moran’s I(莫兰斯 I)值。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-07-30 05:47:06

白话空间统计之:空间自相关的相关文章

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西,官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字,不过一般都简称为:帕克·莫兰,就是下图这位中年帅哥了),在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学,第二次世界大战的时候,加入了盟军,并且因为在数学和物理学上面的特长,被

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西.官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字.只是一般都简称为:帕克·莫兰,就是下图这位中年帅哥了).在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学.第二次世界大战的时候,增加了盟军,而且由于在数学和物理学上面的特长,被

白话空间统计十五:多距离空间聚类分析 (Ripley's K 函数) (上)

空间分析里面,最重要的一个概念就是距离,不同的距离会导致不同的结果.在研究的时候,有种叫做"空间尺度"的概念,这个有兴趣的话,请自行百度(老规矩:百度知道的东西别问我). 所以,在研究聚类的时候,最重要的就是确定不同数据之间的距离,否则就会如下: 聚类分析中,要素之间的距离是个很重要的参数:也就是说两个要素相隔多远才算是聚成一类呢?在任何一种聚类算法中,探索一个合适的距离,都是比较纠结的事情.专家提出了各种算法,都想要优化这个距离探索的过程,以便有效的降低计算开销. 同样一份数据,在不

白话空间统计之九:方向分布(标准差椭圆)

终于写到我最喜欢的一个的工具(算法)了,方向分布是虾神我接触的第一个空间统计工具,也是每次讲空间统计必须要讲的一个,也是对点数据分析中很有用的一个工具. 点模式的分析中,一般会考察如下五种内容: 1.点的疏密,包括点数据的分布探索,是否一致.均匀或者不均匀. 2.点的方位,包括点的分布和方向. 3.点的数量:多少(极值和均值). 4.点的大小:代表的含义(如点一个点代表多少人口). 5.其他,如点的一些动态变化等. (关于点数据分析的其他详细的内容,请看虾神以前的文章,或者再公众号里面回复"点分

白话空间统计之九:方向分布(标准差椭圆)修正版

文章用红色字体标记出来的内容是修正后的内容,感谢四川的杨同学对我曾经的错误提出指正. 最终写到我最喜欢的一个的工具(算法)了.方向分布是虾神我接触的第一个空间统计工具,也是每次讲空间统计必需要讲的一个,也是对点数据分析中非常实用的一个工具. 点模式的分析中,通常会考察例如以下五种内容: 1.点的疏密.包含点数据的分布探索,是否一致.均匀或者不均匀. 2.点的方位.包含点的分布和方向. 3.点的数量:多少(极值和均值). 4.点的大小:代表的含义(如点一个点代表多少人口). 5.其它,如点的一些动

白话空间统计之四:P值和Z值(上):零如果

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等所有说完在讲操作吧.否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面非常神奇的两个值:P值和Z值. 要说这两个值之前.还是要复习一下统计学的概念.毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面.有一个叫做"零如果"的概念很厉害,一定要说说. 零如果(null hypothesis),有时候又称原如果,官方的解释是:指进行统计检验时预先建立的如果.也就是说,

白话空间统计之十:标准距离

前言:热烈庆祝虾神人生第三十三个七夕虐狗节,正好文章又发到第十话.双喜临门-- 好了,言归正传,昨天我们讲了方向分布工具,这个工具会生成一个标准差椭圆.当中有这种一句话描写叙述: "短半轴表示数据分布的范围,短半轴越短,表示数据呈现的向心力越明显.反之,短半轴越长,表示数据的离散程度越大" 那么可能会带来一个这种疑问(不知道大家有没有,反正我有),假设说,这些数据表现出了明显的向心力,也就是在中心附近进行了聚集.那么他们的分散和聚集程度究竟是怎么样的呢?有没有方法进行度量呢? 所以今天

白话空间统计之四:P值和Z值(上):零假设

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等全部说完在讲操作吧,否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面很神秘的两个值:P值和Z值. 要说这两个值之前,还是要复习一下统计学的概念,毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面,有一个叫做"零假设"的概念非常厉害,一定要说说. 零假设(null hypothesis),有时候又称原假设,官方的解释是:指进行统计检验时预先建立的假设.也就是说,

白话空间统计之六:平均最近邻

前面的文章里面,我们看了很多关于距离.聚类的基本原理,从这一章开始,我们讲一些具体的工具和算法. 前面我们用莫兰指数.P值.Z得分啥的,可以得出一份数据是属于离散.随机还是聚集,如果多份数据得出都是聚集的话,其中哪一份数据的聚集程度最高呢?这就需要一个具体的数值来进行量化. 当然Z得分能在一定程度上体现聚集度,不过他并非单纯的在考虑空间上的聚集.所以就有了我们今天要讲的一个算法(在ArcGIS里面,叫做"Average NearestNeighbor",在"空间统计工具箱&q