白话空间统计之四:P值和Z值(上):零假设

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等全部说完在讲操作吧,否则操作出来的结果会发现大量的“不明觉厉”。

首先是空间统计里面很神秘的两个值:P值和Z值。

要说这两个值之前,还是要复习一下统计学的概念,毕竟空间统计的理论基础还是建立在经典统计学上面的。

首先,统计学里面,有一个叫做“零假设”的概念非常厉害,一定要说说。

零假设(null hypothesis),有时候又称原假设,官方的解释是:指进行统计检验时预先建立的假设。也就是说,你在检验你的结果之前,先对这些结果假设一个数值区间,这个区间一般是符合某种概率分布的情况,如果你的真实结果偏离了你设定的区间,就表示发生了小概率事件。这样你原来的假设就不成立了。

如下图所示:

如果你的计算结果落在-2到2之间,就表示你的假设是可以接受得,但是不在这个范围内,就说明消息小概率事件了。既然有小概率事件,就说明两种可能:1,你的假设有错误;2,出现了异常值。

这个神奇的零假设有啥用呢?看下面这个例子:

我们来抛一枚硬币,(我发现统计学,特别是经典统计学最喜欢抛硬币了),在丢之前,我们就已经设定了无论正反两面的概率都在50%左右,(实际上更接近48%——52%这个区间)那么如果我们丢出来的结果,出现了正面概率高达80%,而反面才出现了20%,那就是说,超出了我预设的范围,发生了小概率现象,那么这种小概率现象就很值得研究了,虾神个人认为,如果出现了这种情况,最大可能是这个硬币被做了手脚。

当然,还有可能是出现硬币竖立了起来这种极小概率的事情……这种就得归类到异常值里面去了。

(关于抛硬币的另外一种思维方式,还可以看这篇文章:抛硬币的两种思维方式

http://mp.weixin.qq.com/s?__biz=MzA4ODk4NzgyNA==&mid=200720156&idx=1&sn=564f0b6fe95276180c625373a7cea70f#rd

在经典统计里面,零假设认为你统计计算的数据是符合某种概率的,那么在空间统计里面,零假设表示什么呢?

看下面这个例子:

如果说,A市在7月份发生了200起案件,理论上,不设定条件的话,这200起案件应该是平均的分布在A市的每个区域的,但是实际上这是不可能的,我们会发现某些地区,案发率远远高于其他地区。

那么上面那个命题,最开始我们说明的,200起案件,平均分布在全市各个地方,就是所谓的“零假设”,在空间统计中,零假设指的就是空间位置在一定区域里面呈现完全随机(均匀)分布(在自然现象里面,均匀分布是极小概率才会出现的,基本上都可以忽略了,所以一般谈的就是完全随机)。

按照这样的假设,我们就可以对整个城市的案件案发地点进行统计分析了,如果计算出来的结果,符合我们假设,那么就只能说,这200起案件,发生的地点是随机的,没有聚集规律或者离散的规律。

在空间数据的分析中,有一个很重要内容,就是知道数据分布是否有规律。

拿到一份数据的时候,第一时间,要了解的,就是这份数据是不是有规律,因为有规律的数据才能进行更好的分析。而如果你拿到的这份数据是一份随机分布的数据,那么一般来说,就没有啥分析研究的可能了。因为纯随机(完全随机)是无法预测也无法找到模式的,就像素数(素数在数轴上出现的位置就是完全随机的,无法找到任何规律和模式)。

所谓的纯随机,也有三种可能,一种是你的假设是纯随机的,二是你要计算的数据本身是纯随机的,第三就是你要计算的数据与其周边数据的关系是纯随机。

那么如何对随机假设进行判断呢?也就是说,你的结果是接受零假设还是拒绝零假设,这种就可以通过P、Z两种值的结果来帮助我们进行判断。

(未完待续)

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-08 20:39:38

白话空间统计之四:P值和Z值(上):零假设的相关文章

白话空间统计之四:P值和Z值(上):零如果

本来今天想要讲讲软件操作的,后来发现好像还有好几个重要的指标没有说,干脆等所有说完在讲操作吧.否则操作出来的结果会发现大量的"不明觉厉". 首先是空间统计里面非常神奇的两个值:P值和Z值. 要说这两个值之前.还是要复习一下统计学的概念.毕竟空间统计的理论基础还是建立在经典统计学上面的. 首先,统计学里面.有一个叫做"零如果"的概念很厉害,一定要说说. 零如果(null hypothesis),有时候又称原如果,官方的解释是:指进行统计检验时预先建立的如果.也就是说,

白话空间统计之四:P值和Z得分(中)

要说P.Z之前(本文的P.Z写法,请忽略大小写),我们先看看一个中学化学的概念:PH值. 另外,还要纠正一个说法,p 是一个值(p value),而z是一个得分(z scores),上篇文章中,称谓出错了. 就像上面那个PH试纸的标尺,从中间往两边延伸,表示酸碱的强度.理论上,自然界的物质,基本上以7为中心的泊松分布,就像下面这样: 相对于极度的强酸和极度的强碱,在自然界中的含量都是比较少的,更多的都是中性或者是弱酸或者弱碱的物质. PH值就是用来度量酸碱度的东东,那么我们今天要说的P.Z就类似

白话空间统计十四:高/低值的聚类(上)

从上一篇讲零假设开始,大家就都知道又要进入各种神奇的统计学理论阶段了,但是因为吴道长的提醒,所以我尽量的不写成白皮书这种官方味道十足的东西. 今天我们来讲空间自相关的一个进阶衡量方法:高/低值的聚类. 以前都说了,空间数据的关系无非就三种可能--离散.随机.聚集,如下: 那么我们拿到数据之后,首先确定离散还是聚集,因为随机就没啥价值.只有确定了之后,才能绝对我们怎么去对付他,是清蒸还是红烧,或者是凉拌,都要看原料的. 至于如何确认,我们以前也讲了莫兰指数这个东东,当然,伴随着的肯定还有P值和Z得

白话空间统计之五:空间关系的概念化(上)

空间统计分析与传统的统计分析,最大的区别就在于空间统计学把空间信息和空间关系都直接整合到了算法之中.如果取消掉空间相关的特性,空间统计学与传统统计学就没有多大的区别了. 因此在做空间统计时,都要求在分析之前进行"空间关系的概念化".这个名词说起来很绕口,其实意思就是,你需要在分析时候,使用的"空间"这一概念,进行一个定义. 通俗的来说,空间很多时候就等于"距离",特别是在生活中,我们对两个物体的"空间关系"进行定义,更多的是对

白话空间统计之:空间自相关

白话空间统计之:空间自相关 空间自相关,肯定是空间统计里面第一个拦路虎了,很多人遇上了这个高大上的词汇,立刻就发现,这五个字我好像都认识,但是到底说了啥?不知道. 如果翻开各种教材,从统计学到数学到物理学,各种解释都摆出了一副"老子就是高大上学霸,屌丝学渣勿扰"的样子,这个东西真得就那么难么?虾神我就不信了,所以:I have a dream,就是写出一个最接地气的空间统计解释来.(好大的宏愿,阿弥陀佛老天保佑,别吹炸了.) 首先,要明白一下空间自相关这个神奇的概念,不得不先说一个神奇

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西,官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字,不过一般都简称为:帕克·莫兰,就是下图这位中年帅哥了),在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学,第二次世界大战的时候,加入了盟军,并且因为在数学和物理学上面的特长,被

白话空间统计之:Moran's I(莫兰指数)

前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran's I. 首先,Moran's I这个东西.官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick Alfred PierceMoran)(好长的名字.只是一般都简称为:帕克·莫兰,就是下图这位中年帅哥了).在1950年提出的.这一年,朝鲜战争爆发. 莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学.第二次世界大战的时候,增加了盟军,而且由于在数学和物理学上面的特长,被

白话空间统计十五:多距离空间聚类分析 (Ripley's K 函数) (上)

空间分析里面,最重要的一个概念就是距离,不同的距离会导致不同的结果.在研究的时候,有种叫做"空间尺度"的概念,这个有兴趣的话,请自行百度(老规矩:百度知道的东西别问我). 所以,在研究聚类的时候,最重要的就是确定不同数据之间的距离,否则就会如下: 聚类分析中,要素之间的距离是个很重要的参数:也就是说两个要素相隔多远才算是聚成一类呢?在任何一种聚类算法中,探索一个合适的距离,都是比较纠结的事情.专家提出了各种算法,都想要优化这个距离探索的过程,以便有效的降低计算开销. 同样一份数据,在不

白话空间统计之六:平均最近邻

前面的文章里面,我们看了很多关于距离.聚类的基本原理,从这一章开始,我们讲一些具体的工具和算法. 前面我们用莫兰指数.P值.Z得分啥的,可以得出一份数据是属于离散.随机还是聚集,如果多份数据得出都是聚集的话,其中哪一份数据的聚集程度最高呢?这就需要一个具体的数值来进行量化. 当然Z得分能在一定程度上体现聚集度,不过他并非单纯的在考虑空间上的聚集.所以就有了我们今天要讲的一个算法(在ArcGIS里面,叫做"Average NearestNeighbor",在"空间统计工具箱&q