前言:热烈庆祝虾神人生第三十三个七夕虐狗节,正好文章又发到第十话。双喜临门……
好了,言归正传,昨天我们讲了方向分布工具,这个工具会生成一个标准差椭圆。当中有这种一句话描写叙述:
“短半轴表示数据分布的范围,短半轴越短,表示数据呈现的向心力越明显。反之,短半轴越长,表示数据的离散程度越大”
那么可能会带来一个这种疑问(不知道大家有没有,反正我有),假设说,这些数据表现出了明显的向心力,也就是在中心附近进行了聚集。那么他们的分散和聚集程度究竟是怎么样的呢?有没有方法进行度量呢?
所以今天我们讲的这个算法:标准距离,就是用户度量一组要素,在平均中心附近的离散或者就集中的程度。
我们先看看,这个工具(算法)可以输出什么结果。
数据还是如昨天的那一份伤寒病例。通过标准距离工具计算,结果例如以下:
与方向分布不同的是,这个算法(工具)会生成一个圆形,这个圆形是以全部样本数据的平均中心为圆心。以全部数据的标准距离为半径的一个圆。
这个圆代表的就是全部数据对平均中心的聚集程度。半径越小。向心力就越强(集中程度越高)。它一般用来度量数据分布相对于中心点的分散或者紧密程度。
标准距离在空间统计里面也是一个经常使用的方法。由于它可提供有关中心周围要素分布的单一汇总度量值(此方法类似于通过标准差測量统计平均值周围数据值的分布)。
又到每日历史起源科普时间:这个算法最早是有英国的统计学家狄金森(Dickinson,G.C)在1973年提出来的(原文请自行查阅:《Statisticalmapping and the presentation of statistics》一书。当然,在60年代英国和美国一些统计学家也描写叙述过这个算法,可是首次正式的学术出版。是在1973年),開始他的目的主要是为了说明地图在统计图形图表的重要性(也就是说给英国的统计学家们做GIS可视化的宣传),后来经过不断的发展。变成了空间统计学里面的一个重要的工具和算法。
算法例如以下(讨厌数学公式的同学请直接略过):
首先要计算的是平均中心,这个说了好多次了。直接跳过。
接下去就是计算标准距离,从上面的公式能够看出,用的就是统计学里面的均方差算法。由于均方差(也叫标准差)主要就用来測量分布程度的,所以这里直接借鉴了这种方法。
除了在地图上会生成一个圆面要素以外,还会给出例如以下属性:
与昨天的方向分布非常类似,仅仅是没有长短半轴而已,Shape_Leng和Shape_Area表示输出的圆面要素的周长和面积,单位与你数据的单位是一致的;当然,假设使用经纬度的。就仅仅有參考意义了。
CenterX和CenterY是平均中心。也是要生成的圆面的圆心。
StdDist就是计算出来的标准距离了。
由于空间分析有空间尺度这个概念。所以分析的结果,通常须要进行对照,假设有多份数据进行对照,自然就easy了,比方以下我们用2000年的数据和2001年的数据进行对照:
红色的三角和蓝色的三角,是我通过属性里面的坐标信息标记上去的,表示两个年度的数据中心,能够发现2000的中心比2001年的中心。更靠近长江。
然后以下对他们的标准距离进行比較,例如以下:
非常easy的能够对照出。2001年的数据集中的程度要高于2000年的数据。
最好,关于画的这个圆并没有把全部的样本点都包括进去的问题,原因和昨天的方向分布是一样的,採用了三级标准差方式。例如以下表:
我这里仅仅用了第一级标准差,也就是默认的标准差。仅仅包括有大约68%左右的数据在这个圈里面。
最后我们来看看这个工具可能的应用:
1、能够利用两种或者多种值的分布情况进行比較。如我上面举例的伤寒病结果分析。还有就是在犯罪分析领域里面。犯罪分析家能够对突击行为和偷窃行为的紧密度进行比較。了解不同犯罪类型的分布情况可能有助于警察制定出应对犯罪行为的策略。假设特定区域内的犯罪行为分布非常紧凑,那么在该区域中心附近配置一辆警车或许就足够了。但假设分布较分散,则可能须要几辆警车同一时候巡查该区域,才干更有效地对犯罪行为做出响应。。
2、还能够对同一类型要素在不同一时候间段内的分布情况进行比較。比如。犯罪分析人员能够对白天盗窃行为和夜间盗窃行为进行比較,以了解白天与夜间相比。盗窃行为是更加分散还是更加紧凑。
3、最后,还可将要素分布与静态要素进行比較。比如,能够针对某个区域内各响应消防站在几个月内接到的紧急电话的分布情况进行度量和比較,以了解哪些消防站响应的区域较广。