白话空间统计之九:方向分布(标准差椭圆)

终于写到我最喜欢的一个的工具(算法)了,方向分布是虾神我接触的第一个空间统计工具,也是每次讲空间统计必须要讲的一个,也是对点数据分析中很有用的一个工具。

点模式的分析中,一般会考察如下五种内容:

1、点的疏密,包括点数据的分布探索,是否一致、均匀或者不均匀。

2、点的方位,包括点的分布和方向。

3、点的数量:多少(极值和均值)。

4、点的大小:代表的含义(如点一个点代表多少人口)。

5、其他,如点的一些动态变化等。

(关于点数据分析的其他详细的内容,请看虾神以前的文章,或者再公众号里面回复“点分析”)

其中,我们前面说的好几种算法,如中心要素、中位数中心和平均中心,都是关于点方位的分析,那么今天我们要讲的这个算法,就是同时对点的方向和分布进行分析的一种经典算法——标准差椭圆。

这算法最早是由美国南加州大学(Universityof Southern California)社会学教授韦尔蒂.利菲弗(D. Welty Lefever)在1926年提出,所以有的书里面,也把这个算法称为Lefever‘s
"Standard DeviationalEllipse"(利菲弗方向性分布)(又到每天的历史起源科普时间……)。

这个算法最大的特点,就如同他的名词一样,是用来度量一组数据的方向和分布的,生成的结果又正如他的别名一样,会输出一个椭圆,如下:

红色的点是伤寒发病的案例,蓝色的河流是长江太湖流域段,从计算的结果来看,发病的数据方向与长江的流向方向基本一致,而范围较大。

从上图,我们基本上就可以看出方向分布工具的主要作用了,它可以识别一组数据的方向以及分布的趋势,并且了解到这份数据是否具有一些特性,至于有哪些特性,我们后面再说。

我们先来看看这个标准差椭圆的生成算法。

其实算法很简单,要画出一个椭圆,虽然比画圆麻烦点,但是也麻烦不了多少,关键的参数如下:

1、确定圆心。

2、确定旋转角度。

3、确定XY轴的长度。

这些参数,算法里面都给了我们很清晰的公式,只要依照公式来计算就可以了。

首先是确定圆心,方向分布工具的圆心,直接利用的是算数平均中心来计算椭圆的圆心,公式如下:

其中,Xi和Yi是每个要素的空间位置坐标,X和Y是算数平均中心(算术平均中心请查看我在2015年8月17日写的《空间统计之八:平均中心和中位数中心》一文)。

SDEx和SDEy就是最后计算出来的椭圆的圆心。

然后确定椭圆的方向,以X轴为准,正北方(12点方向)为0度,顺时针旋转,计算公式如下:

最后确定XY轴的长度,公式如下:

把所有的数据都带入到公式中,就很容易的把所有的参数都计算出来,接下去只需要再地图上画出结果就行。

那么这个椭圆揭示了一些什么意义呢?

使用ArcGIS的话,方向分布工具除了生成这样一个椭圆以外,还会给出如下结果:

其中,Shape_Leng和Shape_Area是生成的椭圆的周长和面积,单位与你数据的单位相同,这里我的数据是经纬度的,所以生成的结果只能作为相对参考结果。

CenterX和CenterY表示的是椭圆的中心点。

XstdDist和YStdDist表示的X轴的长度和Y轴的长度。

Rotation表示的是椭圆的方向角度。如下:

结果解读如下:

1、椭圆的长半轴表示的是数据分布的方向短半轴表示的是数据分布的范围,长短半轴的值差距越大(扁率越大),表示数据的方向性越明显。反之,如果长短半轴越接近,表示方向性越不明显。如果长短半轴完全相等,就等于是一个圆了,圆的话就表示没有任何的方向特征

2、短半轴表示数据分布的范围,短半轴越,表示数据呈现的向心力越明显;反之,短半轴越,表示数据的离散程度越大。同样,如果短半轴与长半轴完全相等了,就表示数据没有任何的分布特征

3、中心点表示了整个数据的中心位置,一般来说,只要数据的变异程度不是很大的话,这个中心点的位置大约与算数平均数的位置基本上是一致的,至于数据变异是什么情况,请看下面第4点。

4、有的同学会很疑惑,为什么你画的这个椭圆,还有很多的点都在外面,没有把所有的点都包含进去?那么就是就是“标准差椭圆”这个名词里面的“标准差”的含义所在了。

在ArcGIS工具里面(其他的工具也都差不多),提供了“椭圆大小”(Ellipse_Size)这个参数,这个参数表示你生成的椭圆的级别,一共有三个,如下表:

三个级别的椭圆,分别表示了你生成的椭圆,能够包含68%,95%和99%三个级别的数据,我们通过可以指定要表示的标准差数(1、2
或 3)来决定你生成的椭圆包含的数据比例。

当要素具有空间正态分布时(即这些要素在中心处最为密集,而在接近外围时会逐渐变得稀疏),第一级标准差(默认值)范围可将约占总数 68%
的输入要素的质心包含在内。第二级标准差范围会将约占总数 95%
的要素包含在内,而第三级标准差范围则会覆盖约占总数 99%
的要素的质心。

所以,当你选择不同标准差等级的时候,你发现你的中心点的位置也可能不同。

当然,作为空间分析工具,方向分布一样可以进行加权计算,这个计算主要还是与中心点的位置确定以及椭圆标准差等级生成的椭圆大小有关系。

下面我们来通过一个实例来了解方向分布工具的应用:

一共有两年的伤寒病数据,如下,红色的是2000年的,蓝色是2001年的:

使用1个标准差的结果,生成的椭圆如上,具体数据如下:

我们对关键性的两个指标进行对比:

生成面积表示范围,可以发现2000的伤寒病发病情况的范围要大于2001年的,扁率表示他的方向明确性和向心力的程度,2000年生成的椭圆扁率远高于2001年的,说明了2000的伤寒发病情况,比2001年的方向趋势更明显。

2000年生成的椭圆方向与长江的方向基本相相符,所以2000年的伤寒发病源与长江的关系较为密切。而2001年的发病情况虽然方向性并不如2000年的明显,但是长半轴几乎与长江垂直,可以基本确认,2001年伤寒发病源与长江关系不大,但是呈现向内陆爆发的趋势。

方向分布工具在空间统计中是综合能力最突出的工具之一,有着广泛的应用,在我们的分析和数据探索的时候,能够起到非常重大的作用。

最后,列出几个可能的应用:

1、可用来在地图上标示一组犯罪行为的分布趋势,并且能够确定该行为与特定要素(一系列酒吧或餐馆、某条特定街道等)的关系。

2、在地图上标示地下水井样本的特定污染,可以指示毒素的扩散方式,这在部署应急防灾策略时非常有用。

3、对各个物种所在区域的椭圆的大小、形状和重叠部分进行比较可以分析与物种入侵或者隔离相关的深入信息。

4、绘制一段时间内疾病爆发情况的椭圆可用于建立疾病传播的模型。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-04 12:12:52

白话空间统计之九:方向分布(标准差椭圆)的相关文章

白话空间统计之九:方向分布(标准差椭圆)修正版

文章用红色字体标记出来的内容是修正后的内容,感谢四川的杨同学对我曾经的错误提出指正. 最终写到我最喜欢的一个的工具(算法)了.方向分布是虾神我接触的第一个空间统计工具,也是每次讲空间统计必需要讲的一个,也是对点数据分析中非常实用的一个工具. 点模式的分析中,通常会考察例如以下五种内容: 1.点的疏密.包含点数据的分布探索,是否一致.均匀或者不均匀. 2.点的方位.包含点的分布和方向. 3.点的数量:多少(极值和均值). 4.点的大小:代表的含义(如点一个点代表多少人口). 5.其它,如点的一些动

白话空间统计之:空间自相关

白话空间统计之:空间自相关 空间自相关,肯定是空间统计里面第一个拦路虎了,很多人遇上了这个高大上的词汇,立刻就发现,这五个字我好像都认识,但是到底说了啥?不知道. 如果翻开各种教材,从统计学到数学到物理学,各种解释都摆出了一副"老子就是高大上学霸,屌丝学渣勿扰"的样子,这个东西真得就那么难么?虾神我就不信了,所以:I have a dream,就是写出一个最接地气的空间统计解释来.(好大的宏愿,阿弥陀佛老天保佑,别吹炸了.) 首先,要明白一下空间自相关这个神奇的概念,不得不先说一个神奇

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西,官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字,不过一般都简称为:帕克·莫兰,就是下图这位中年帅哥了),在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学,第二次世界大战的时候,加入了盟军,并且因为在数学和物理学上面的特长,被

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西.官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字.只是一般都简称为:帕克·莫兰,就是下图这位中年帅哥了).在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学.第二次世界大战的时候,增加了盟军,而且由于在数学和物理学上面的特长,被

白话空间统计十五:多距离空间聚类分析 (Ripley's K 函数) (上)

空间分析里面,最重要的一个概念就是距离,不同的距离会导致不同的结果.在研究的时候,有种叫做"空间尺度"的概念,这个有兴趣的话,请自行百度(老规矩:百度知道的东西别问我). 所以,在研究聚类的时候,最重要的就是确定不同数据之间的距离,否则就会如下: 聚类分析中,要素之间的距离是个很重要的参数:也就是说两个要素相隔多远才算是聚成一类呢?在任何一种聚类算法中,探索一个合适的距离,都是比较纠结的事情.专家提出了各种算法,都想要优化这个距离探索的过程,以便有效的降低计算开销. 同样一份数据,在不

白话空间统计之十:标准距离

前言:热烈庆祝虾神人生第三十三个七夕虐狗节,正好文章又发到第十话.双喜临门-- 好了,言归正传,昨天我们讲了方向分布工具,这个工具会生成一个标准差椭圆.当中有这种一句话描写叙述: "短半轴表示数据分布的范围,短半轴越短,表示数据呈现的向心力越明显.反之,短半轴越长,表示数据的离散程度越大" 那么可能会带来一个这种疑问(不知道大家有没有,反正我有),假设说,这些数据表现出了明显的向心力,也就是在中心附近进行了聚集.那么他们的分散和聚集程度究竟是怎么样的呢?有没有方法进行度量呢? 所以今天

白话空间统计之四:P值和Z值(上):零如果

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等所有说完在讲操作吧.否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面非常神奇的两个值:P值和Z值. 要说这两个值之前.还是要复习一下统计学的概念.毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面.有一个叫做"零如果"的概念很厉害,一定要说说. 零如果(null hypothesis),有时候又称原如果,官方的解释是:指进行统计检验时预先建立的如果.也就是说,

白话空间统计之四:P值和Z值(上):零假设

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等全部说完在讲操作吧,否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面很神秘的两个值:P值和Z值. 要说这两个值之前,还是要复习一下统计学的概念,毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面,有一个叫做"零假设"的概念非常厉害,一定要说说. 零假设(null hypothesis),有时候又称原假设,官方的解释是:指进行统计检验时预先建立的假设.也就是说,

白话空间统计之六:平均最近邻

前面的文章里面,我们看了很多关于距离.聚类的基本原理,从这一章开始,我们讲一些具体的工具和算法. 前面我们用莫兰指数.P值.Z得分啥的,可以得出一份数据是属于离散.随机还是聚集,如果多份数据得出都是聚集的话,其中哪一份数据的聚集程度最高呢?这就需要一个具体的数值来进行量化. 当然Z得分能在一定程度上体现聚集度,不过他并非单纯的在考虑空间上的聚集.所以就有了我们今天要讲的一个算法(在ArcGIS里面,叫做"Average NearestNeighbor",在"空间统计工具箱&q