白话空间统计之四：P值和Z值（上）：零假设

本来今天想要讲讲软件操作的，后来发现好像还有好几个重要的指标没有说，干脆等全部说完在讲操作吧，否则操作出来的结果会发现大量的“不明觉厉”。

首先是空间统计里面很神秘的两个值：P值和Z值。

要说这两个值之前，还是要复习一下统计学的概念，毕竟空间统计的理论基础还是建立在经典统计学上面的。

首先，统计学里面，有一个叫做“零假设”的概念非常厉害，一定要说说。

零假设（null hypothesis），有时候又称原假设，官方的解释是：指进行统计检验时预先建立的假设。也就是说，你在检验你的结果之前，先对这些结果假设一个数值区间，这个区间一般是符合某种概率分布的情况，如果你的真实结果偏离了你设定的区间，就表示发生了小概率事件。这样你原来的假设就不成立了。

如下图所示：

如果你的计算结果落在-2到2之间，就表示你的假设是可以接受得，但是不在这个范围内，就说明消息小概率事件了。既然有小概率事件，就说明两种可能：1，你的假设有错误；2，出现了异常值。

这个神奇的零假设有啥用呢？看下面这个例子：

我们来抛一枚硬币，（我发现统计学，特别是经典统计学最喜欢抛硬币了），在丢之前，我们就已经设定了无论正反两面的概率都在50%左右，（实际上更接近48%——52%这个区间）那么如果我们丢出来的结果，出现了正面概率高达80%，而反面才出现了20%，那就是说，超出了我预设的范围，发生了小概率现象，那么这种小概率现象就很值得研究了，虾神个人认为，如果出现了这种情况，最大可能是这个硬币被做了手脚。

当然，还有可能是出现硬币竖立了起来这种极小概率的事情……这种就得归类到异常值里面去了。

（关于抛硬币的另外一种思维方式，还可以看这篇文章：抛硬币的两种思维方式：

http://mp.weixin.qq.com/s?__biz=MzA4ODk4NzgyNA==&mid=200720156&idx=1&sn=564f0b6fe95276180c625373a7cea70f#rd

在经典统计里面，零假设认为你统计计算的数据是符合某种概率的，那么在空间统计里面，零假设表示什么呢？

看下面这个例子：

如果说，A市在7月份发生了200起案件，理论上，不设定条件的话，这200起案件应该是平均的分布在A市的每个区域的，但是实际上这是不可能的，我们会发现某些地区，案发率远远高于其他地区。

那么上面那个命题，最开始我们说明的，200起案件，平均分布在全市各个地方，就是所谓的“零假设”，在空间统计中，零假设指的就是空间位置在一定区域里面呈现完全随机（均匀）分布（在自然现象里面，均匀分布是极小概率才会出现的，基本上都可以忽略了，所以一般谈的就是完全随机）。

按照这样的假设，我们就可以对整个城市的案件案发地点进行统计分析了，如果计算出来的结果，符合我们假设，那么就只能说，这200起案件，发生的地点是随机的，没有聚集规律或者离散的规律。

在空间数据的分析中，有一个很重要内容，就是知道数据分布是否有规律。

拿到一份数据的时候，第一时间，要了解的，就是这份数据是不是有规律，因为有规律的数据才能进行更好的分析。而如果你拿到的这份数据是一份随机分布的数据，那么一般来说，就没有啥分析研究的可能了。因为纯随机（完全随机）是无法预测也无法找到模式的，就像素数（素数在数轴上出现的位置就是完全随机的，无法找到任何规律和模式）。

所谓的纯随机，也有三种可能，一种是你的假设是纯随机的，二是你要计算的数据本身是纯随机的，第三就是你要计算的数据与其周边数据的关系是纯随机。

那么如何对随机假设进行判断呢？也就是说，你的结果是接受零假设还是拒绝零假设，这种就可以通过P、Z两种值的结果来帮助我们进行判断。

（未完待续）

时间： 2024-10-08 20:39:38

白话空间统计之四：P值和Z值（上）：零假设

白话空间统计之四：P值和Z值（上）：零假设的相关文章

白话空间统计之四：P值和Z值（上）：零如果

白话空间统计之四：P值和Z得分（中）

白话空间统计十四：高/低值的聚类（上）

白话空间统计之五：空间关系的概念化（上）

白话空间统计之：空间自相关

白话空间统计之：Moran's I（莫兰指数）

白话空间统计之：Moran&#39;s I（莫兰指数）

白话空间统计十五：多距离空间聚类分析 (Ripley's K 函数) （上）

白话空间统计之六：平均最近邻