白话空间统计之十:标准距离

前言:热烈庆祝虾神人生第三十三个七夕虐狗节,正好文章又发到第十话。双喜临门……

好了,言归正传,昨天我们讲了方向分布工具,这个工具会生成一个标准差椭圆。当中有这种一句话描写叙述:

“短半轴表示数据分布的范围,短半轴越短,表示数据呈现的向心力越明显。反之,短半轴越长,表示数据的离散程度越大”

那么可能会带来一个这种疑问(不知道大家有没有,反正我有),假设说,这些数据表现出了明显的向心力,也就是在中心附近进行了聚集。那么他们的分散和聚集程度究竟是怎么样的呢?有没有方法进行度量呢?

所以今天我们讲的这个算法:标准距离,就是用户度量一组要素,在平均中心附近的离散或者就集中的程度。

我们先看看,这个工具(算法)可以输出什么结果。

数据还是如昨天的那一份伤寒病例。通过标准距离工具计算,结果例如以下:

与方向分布不同的是,这个算法(工具)会生成一个圆形,这个圆形是以全部样本数据的平均中心为圆心。以全部数据的标准距离为半径的一个圆。

这个圆代表的就是全部数据对平均中心的聚集程度。半径越小。向心力就越强(集中程度越高)。它一般用来度量数据分布相对于中心点的分散或者紧密程度。

标准距离在空间统计里面也是一个经常使用的方法。由于它可提供有关中心周围要素分布的单一汇总度量值(此方法类似于通过标准差測量统计平均值周围数据值的分布)。

又到每日历史起源科普时间:这个算法最早是有英国的统计学家狄金森(Dickinson,G.C)在1973年提出来的(原文请自行查阅:《Statisticalmapping and the presentation of statistics》一书。当然,在60年代英国和美国一些统计学家也描写叙述过这个算法,可是首次正式的学术出版。是在1973年),開始他的目的主要是为了说明地图在统计图形图表的重要性(也就是说给英国的统计学家们做GIS可视化的宣传),后来经过不断的发展。变成了空间统计学里面的一个重要的工具和算法。

算法例如以下(讨厌数学公式的同学请直接略过):

首先要计算的是平均中心,这个说了好多次了。直接跳过。

接下去就是计算标准距离,从上面的公式能够看出,用的就是统计学里面的均方差算法。由于均方差(也叫标准差)主要就用来測量分布程度的,所以这里直接借鉴了这种方法。

除了在地图上会生成一个圆面要素以外,还会给出例如以下属性:

与昨天的方向分布非常类似,仅仅是没有长短半轴而已,Shape_Leng和Shape_Area表示输出的圆面要素的周长和面积,单位与你数据的单位是一致的;当然,假设使用经纬度的。就仅仅有參考意义了。

CenterX和CenterY是平均中心。也是要生成的圆面的圆心。

StdDist就是计算出来的标准距离了。

由于空间分析有空间尺度这个概念。所以分析的结果,通常须要进行对照,假设有多份数据进行对照,自然就easy了,比方以下我们用2000年的数据和2001年的数据进行对照:

红色的三角和蓝色的三角,是我通过属性里面的坐标信息标记上去的,表示两个年度的数据中心,能够发现2000的中心比2001年的中心。更靠近长江。

然后以下对他们的标准距离进行比較,例如以下:

非常easy的能够对照出。2001年的数据集中的程度要高于2000年的数据。

最好,关于画的这个圆并没有把全部的样本点都包括进去的问题,原因和昨天的方向分布是一样的,採用了三级标准差方式。例如以下表:

我这里仅仅用了第一级标准差,也就是默认的标准差。仅仅包括有大约68%左右的数据在这个圈里面。

最后我们来看看这个工具可能的应用:

1、能够利用两种或者多种值的分布情况进行比較。如我上面举例的伤寒病结果分析。还有就是在犯罪分析领域里面。犯罪分析家能够对突击行为和偷窃行为的紧密度进行比較。了解不同犯罪类型的分布情况可能有助于警察制定出应对犯罪行为的策略。假设特定区域内的犯罪行为分布非常紧凑,那么在该区域中心附近配置一辆警车或许就足够了。但假设分布较分散,则可能须要几辆警车同一时候巡查该区域,才干更有效地对犯罪行为做出响应。。

2、还能够对同一类型要素在不同一时候间段内的分布情况进行比較。比如。犯罪分析人员能够对白天盗窃行为和夜间盗窃行为进行比較,以了解白天与夜间相比。盗窃行为是更加分散还是更加紧凑。

3、最后,还可将要素分布与静态要素进行比較。比如,能够针对某个区域内各响应消防站在几个月内接到的紧急电话的分布情况进行度量和比較,以了解哪些消防站响应的区域较广。

时间: 2024-10-10 19:39:16

白话空间统计之十:标准距离的相关文章

白话空间统计十五:多距离空间聚类分析 (Ripley's K 函数) (上)

空间分析里面,最重要的一个概念就是距离,不同的距离会导致不同的结果.在研究的时候,有种叫做"空间尺度"的概念,这个有兴趣的话,请自行百度(老规矩:百度知道的东西别问我). 所以,在研究聚类的时候,最重要的就是确定不同数据之间的距离,否则就会如下: 聚类分析中,要素之间的距离是个很重要的参数:也就是说两个要素相隔多远才算是聚成一类呢?在任何一种聚类算法中,探索一个合适的距离,都是比较纠结的事情.专家提出了各种算法,都想要优化这个距离探索的过程,以便有效的降低计算开销. 同样一份数据,在不

白话空间统计之:空间自相关

白话空间统计之:空间自相关 空间自相关,肯定是空间统计里面第一个拦路虎了,很多人遇上了这个高大上的词汇,立刻就发现,这五个字我好像都认识,但是到底说了啥?不知道. 如果翻开各种教材,从统计学到数学到物理学,各种解释都摆出了一副"老子就是高大上学霸,屌丝学渣勿扰"的样子,这个东西真得就那么难么?虾神我就不信了,所以:I have a dream,就是写出一个最接地气的空间统计解释来.(好大的宏愿,阿弥陀佛老天保佑,别吹炸了.) 首先,要明白一下空间自相关这个神奇的概念,不得不先说一个神奇

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西,官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字,不过一般都简称为:帕克·莫兰,就是下图这位中年帅哥了),在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学,第二次世界大战的时候,加入了盟军,并且因为在数学和物理学上面的特长,被

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西.官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字.只是一般都简称为:帕克·莫兰,就是下图这位中年帅哥了).在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学.第二次世界大战的时候,增加了盟军,而且由于在数学和物理学上面的特长,被

白话空间统计之九:方向分布(标准差椭圆)

终于写到我最喜欢的一个的工具(算法)了,方向分布是虾神我接触的第一个空间统计工具,也是每次讲空间统计必须要讲的一个,也是对点数据分析中很有用的一个工具. 点模式的分析中,一般会考察如下五种内容: 1.点的疏密,包括点数据的分布探索,是否一致.均匀或者不均匀. 2.点的方位,包括点的分布和方向. 3.点的数量:多少(极值和均值). 4.点的大小:代表的含义(如点一个点代表多少人口). 5.其他,如点的一些动态变化等. (关于点数据分析的其他详细的内容,请看虾神以前的文章,或者再公众号里面回复"点分

白话空间统计之九:方向分布(标准差椭圆)修正版

文章用红色字体标记出来的内容是修正后的内容,感谢四川的杨同学对我曾经的错误提出指正. 最终写到我最喜欢的一个的工具(算法)了.方向分布是虾神我接触的第一个空间统计工具,也是每次讲空间统计必需要讲的一个,也是对点数据分析中非常实用的一个工具. 点模式的分析中,通常会考察例如以下五种内容: 1.点的疏密.包含点数据的分布探索,是否一致.均匀或者不均匀. 2.点的方位.包含点的分布和方向. 3.点的数量:多少(极值和均值). 4.点的大小:代表的含义(如点一个点代表多少人口). 5.其它,如点的一些动

白话空间统计之四:P值和Z值(上):零如果

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等所有说完在讲操作吧.否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面非常神奇的两个值:P值和Z值. 要说这两个值之前.还是要复习一下统计学的概念.毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面.有一个叫做"零如果"的概念很厉害,一定要说说. 零如果(null hypothesis),有时候又称原如果,官方的解释是:指进行统计检验时预先建立的如果.也就是说,

白话空间统计之四:P值和Z值(上):零假设

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等全部说完在讲操作吧,否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面很神秘的两个值:P值和Z值. 要说这两个值之前,还是要复习一下统计学的概念,毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面,有一个叫做"零假设"的概念非常厉害,一定要说说. 零假设(null hypothesis),有时候又称原假设,官方的解释是:指进行统计检验时预先建立的假设.也就是说,

白话空间统计之六:平均最近邻

前面的文章里面,我们看了很多关于距离.聚类的基本原理,从这一章开始,我们讲一些具体的工具和算法. 前面我们用莫兰指数.P值.Z得分啥的,可以得出一份数据是属于离散.随机还是聚集,如果多份数据得出都是聚集的话,其中哪一份数据的聚集程度最高呢?这就需要一个具体的数值来进行量化. 当然Z得分能在一定程度上体现聚集度,不过他并非单纯的在考虑空间上的聚集.所以就有了我们今天要讲的一个算法(在ArcGIS里面,叫做"Average NearestNeighbor",在"空间统计工具箱&q