白话空间统计十四:高/低值的聚类(上)

从上一篇讲零假设开始,大家就都知道又要进入各种神奇的统计学理论阶段了,但是因为吴道长的提醒,所以我尽量的不写成白皮书这种官方味道十足的东西。

今天我们来讲空间自相关的一个进阶衡量方法:高/低值的聚类。

以前都说了,空间数据的关系无非就三种可能——离散、随机、聚集,如下:

那么我们拿到数据之后,首先确定离散还是聚集,因为随机就没啥价值。只有确定了之后,才能绝对我们怎么去对付他,是清蒸还是红烧,或者是凉拌,都要看原料的。

至于如何确认,我们以前也讲了莫兰指数这个东东,当然,伴随着的肯定还有P值和Z得分神马的,有兴趣的同学,请查看以前文章。

那么拿到数据,确定由聚集的可能之后,又会发生什么事情呢?

我们继续看下面的例子:

继续来抛硬币:

一次性抛出16枚编好号的硬币,结果如上图。我把结果用红圈给圈出来了,大家就很容易的看见发生了聚集,而且这次试验的结果主要是反面发生了聚集。

所以,在我们发现了数据有聚类的可能性之后,我们还可以进一步的分析,到底是哪一类数据发生了聚集,这种能够判定是哪一类值产生了聚类的,就叫做“高/低值聚类”分析。

下面进入历史科普实践,这种用于判定高/值聚类的方法,最早是由美国乔治敦大学麦克多诺商学院(McDonough
School of Business)的J. Keith Ord和圣地亚哥州立大学地理系的ArthurGetis两人提出,所以,这个算法通常由被称为:Getis-Ord General G分析。就是下面的两位帅哥(我一直对研究算法的人满怀敬意):

与硬币只有两面不同,数据是可以划分为高值和低值的,如下图:

在前面衡量空间自相关的时候,用的参数是Moran‘I(莫兰指数),那么在衡量搞低值聚类的时候,用的也是一个指数,这个指数叫做 General G 指数。

General G
指数与莫兰指数一样,皆是一种推论统计,即你把数据拿到之后的下一个步骤。比如你相亲时候,第一次把妹纸相片要到的时候,首先要做的自然就是看看是不是符合自己的审美观了,然后就是找找是否有PS的痕迹,通过小细节来想象一个下这个妹纸有哪些爱好性格啊之类;这种利用有限的数据来对整体情况的特征进行估计的过程,就是推论统计。

通过分析之后得到的结果,都会在零假设(以瞎猜为背景)的情况下进行解释。也就是说,你的计算出来的值,只是与瞎猜的结果相比较得出来的结论,并不代表真实的结果。

General G统计方法,认为零假设(瞎猜)是不存在聚类的。当你进行General G方法进行计算的时候,会得出一堆的值,如下:

Z的分和P值和方差是啥意思就不解释了,大家回头去看原来的文章,着重解释一下观察General
G指数和期望General指数是什么东西。

首先,还是要看看数据是否有意义,因为P值代表了你这份数据是不是随机的,如下图所示:

P值就决定了你这份数据是否具有分析价值,如果我们能够进入下一步,那么Z值就变得重要起来。与空间相关性里面的Z值不同,在General
G统计的计算中,Z值的正负符号是有意义的,如下:

看到这里就会有人跳出来了,你的观察General G指数和期望General
G指数哪里去了?既然Z值都已经把你要高/低值聚类都标示出来了,这个两个指数还有啥用?

别急,继续往下看。

我们开始说了,General G方法,是用来探索高\值聚类的方法,那么这两种指数也是用来衡量到底是发生了高值聚类还是低值聚类的。

单独一个指数是没有什么意义的,既然他给了两个指数,是表示,让你来进行比较的。在算法上,只要Z得分是正数,那么一般来说观察指数就要大于期望指数,而如果Z得分是负数,那么期望指数就要大于观察指数,如下:

那么把两个图组合起来,就得到了如下结果:

Z得分为正——观察General G指数大于期望GeneralG指数——数据在高值区域聚类。

Z得分为负——期望General G指数大于观察GeneralG指数——数据在低值区域聚类。

但是,正如每个人小时候都被其他的熊长辈挑拨离间过——“你是喜欢粑粑还是麻麻?”往往把小孩弄得不知所措,而父母也会教小孩如何对付这些熊长辈“说‘都喜欢’”,然后皆大欢喜一样。一份数据如果同时在高值和低值区域都表现出了聚类,怎么办?

那么很容易出现的就是观察GeneralG指数和期望General
G指数相等的情况,那么这种情况用官方的话说,就是“高值和低值同时聚类时,它们倾向于彼此相互抵消。”如下图:

遇上这种高低值全部都聚类情况,基本上就可以直接放弃使用这个工具了,改用空间自相关工具即可(Globe Moran‘ I)。

所以,很明显的看出,这个工具主要是去寻找高值或者低值有其中一方发生聚类的时候,才能发挥出他的价值。

(待续未完)

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-25 19:09:41

白话空间统计十四:高/低值的聚类(上)的相关文章

白话空间统计十五:多距离空间聚类分析 (Ripley's K 函数) (上)

空间分析里面,最重要的一个概念就是距离,不同的距离会导致不同的结果.在研究的时候,有种叫做"空间尺度"的概念,这个有兴趣的话,请自行百度(老规矩:百度知道的东西别问我). 所以,在研究聚类的时候,最重要的就是确定不同数据之间的距离,否则就会如下: 聚类分析中,要素之间的距离是个很重要的参数:也就是说两个要素相隔多远才算是聚成一类呢?在任何一种聚类算法中,探索一个合适的距离,都是比较纠结的事情.专家提出了各种算法,都想要优化这个距离探索的过程,以便有效的降低计算开销. 同样一份数据,在不

白话空间统计之四:P值和Z值(上):零如果

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等所有说完在讲操作吧.否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面非常神奇的两个值:P值和Z值. 要说这两个值之前.还是要复习一下统计学的概念.毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面.有一个叫做"零如果"的概念很厉害,一定要说说. 零如果(null hypothesis),有时候又称原如果,官方的解释是:指进行统计检验时预先建立的如果.也就是说,

白话空间统计之四:P值和Z值(上):零假设

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等全部说完在讲操作吧,否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面很神秘的两个值:P值和Z值. 要说这两个值之前,还是要复习一下统计学的概念,毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面,有一个叫做"零假设"的概念非常厉害,一定要说说. 零假设(null hypothesis),有时候又称原假设,官方的解释是:指进行统计检验时预先建立的假设.也就是说,

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西,官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字,不过一般都简称为:帕克·莫兰,就是下图这位中年帅哥了),在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学,第二次世界大战的时候,加入了盟军,并且因为在数学和物理学上面的特长,被

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西.官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字.只是一般都简称为:帕克·莫兰,就是下图这位中年帅哥了).在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学.第二次世界大战的时候,增加了盟军,而且由于在数学和物理学上面的特长,被

白话空间统计之:空间自相关

白话空间统计之:空间自相关 空间自相关,肯定是空间统计里面第一个拦路虎了,很多人遇上了这个高大上的词汇,立刻就发现,这五个字我好像都认识,但是到底说了啥?不知道. 如果翻开各种教材,从统计学到数学到物理学,各种解释都摆出了一副"老子就是高大上学霸,屌丝学渣勿扰"的样子,这个东西真得就那么难么?虾神我就不信了,所以:I have a dream,就是写出一个最接地气的空间统计解释来.(好大的宏愿,阿弥陀佛老天保佑,别吹炸了.) 首先,要明白一下空间自相关这个神奇的概念,不得不先说一个神奇

第十四章 软件、硬件发展史上的风风雨雨中的一声悲叹!

第十四章   软件.硬件发展史上的风风雨雨中的一声悲叹! 睡不着.感而写之. 忠言逆耳.良语苦口.高山流水.曲高和寡. 我的感觉,计算机已经发展到了一个死胡同.我们似乎只是在兜圈子,从最初的汇编写的UNIX操作系统,到如今的C语言写的WINDOWS.LINUX.我 们应该反思.到底技术上进步了很多?还是原地兜圈子?从汇编,到C语言.脚本语言,到C++.C#.JAVA,到VB等等所谓的高级语言:似乎取得很多进步了.我们面向对象编程啊,抽象了类.逐步贴近自然语言了.真的?我极端怀疑!人类的自然语言描

白话空间统计之十:标准距离

前言:热烈庆祝虾神人生第三十三个七夕虐狗节,正好文章又发到第十话.双喜临门-- 好了,言归正传,昨天我们讲了方向分布工具,这个工具会生成一个标准差椭圆.当中有这种一句话描写叙述: "短半轴表示数据分布的范围,短半轴越短,表示数据呈现的向心力越明显.反之,短半轴越长,表示数据的离散程度越大" 那么可能会带来一个这种疑问(不知道大家有没有,反正我有),假设说,这些数据表现出了明显的向心力,也就是在中心附近进行了聚集.那么他们的分散和聚集程度究竟是怎么样的呢?有没有方法进行度量呢? 所以今天

白话空间统计之六:平均最近邻

前面的文章里面,我们看了很多关于距离.聚类的基本原理,从这一章开始,我们讲一些具体的工具和算法. 前面我们用莫兰指数.P值.Z得分啥的,可以得出一份数据是属于离散.随机还是聚集,如果多份数据得出都是聚集的话,其中哪一份数据的聚集程度最高呢?这就需要一个具体的数值来进行量化. 当然Z得分能在一定程度上体现聚集度,不过他并非单纯的在考虑空间上的聚集.所以就有了我们今天要讲的一个算法(在ArcGIS里面,叫做"Average NearestNeighbor",在"空间统计工具箱&q