地统计分析笔记——探索数据

来自:http://blog.csdn.net/kikitamoon/article/details/49925147

在执行地统计分析之前,浏览、熟悉、检查自己的数据是至关重要的。绘制和检查数据是地统计分析过程中的必要阶段,我们可以从这些工作中获得一些先验知识,指导后续的工作。

Stage 1 绘制数据

通过ArcMap的图层渲染方案绘制数据,我们可以获得对数据的第一印象。

例如,使用单一符号渲染了解采样点的疏密分布,通过分类渲染了解采样点高值低值的分布,等等。

Stage 2 检查数据

绘制数据后,使用 探索性空间数据分析 (Exploratory Spatial Data Analysis,ESDA) 工具来执行数据探索的第二阶段。这些工具提供了一种比绘制数据更加量化的方式来检查数据,有助于我们更深入地了解正在研究的现象,有助于我们对插值模型的构建方式做出更加正确的决策。

ESDA 工具包括:

Ⅰ 是否服从正态分布?

Histogram/直方图

直方图用于显示感兴趣数据集的频率分布并计算汇总统计数据,如何解读图形和统计信息呢?

  • 如果数据服从正态分布,则平均值(mean)与中值(median)类似,偏度(skewness)应接近零,并且峰度(kurtosis)应接近 3。

    • 平均值即为数据的算数平均值。平均值提供分布中心的测量值。 中位数与累积比例 0.5 对应。如果数据以升序排列,50%的值位于中间值之下,50% 的值位于中间值之上。中间值提供了分布中心的另一个测量值。 第一和第三分位数分别与累积比例 0.25 和 0.75 对应。如果数据以升序排列,则 25% 的值位于第一分位数之下,25% 的值位于第三分位数之上。第一和第三分位数是分位数的特殊情况。
    • 偏度系数是分布对称度的测量值。对于对称的分布,偏度系数为零。如果分布具有较长的大值右尾部,则为正偏分布;如果分布具有较长的小值左尾部,则为负偏分布。对于正偏分布,平均值大于中间值;对负偏分布,平均值小于中间值。
    • 峰度取决于分布尾部的大小,提供分布产生异常值可能性的衡量指标。正态分布的峰度等于三。具有较厚尾部的分布被称为高峰态,其峰度大于三。具有较薄尾部的分布被称为低峰态,其峰度值小于三。
  • 数据的方差,通常对过高值或过低值很敏感。标准差为方差的平方根,它描述了数据在平均值周围的分散程度。方差和标准差越小,测量值聚类相对于平均值就越紧密。

Normal QQPlots/正态QQ图

正态 QQ 图上的点可指示数据集的单变量分布的正态性。如果数据是正态分布的,点将落在 45 度参考线上。如果数据不是正态分布的,点将会偏离参考线。

General QQPlots/普通QQ图

普通 QQ 图用于评估两个数据集的分布的相似程度。这些图的创建和所述的正态 QQ 图的过程类似,不同之处在于第二个数据集不一定要服从正态分布,使用任何数据集均可。如果两个数据集具有相同的分布,普通 QQ 图中的点将落在 45 度直线上。

### 有关数据变换

Geostatistical Analyst 中的一些插值方法要求数据呈正态分布。如果数据偏斜(分布不均衡),则可能需要将数据变换为正态分布。

Box-Cox 变换(又称幂变换)
如果在某一部分研究区域中计数值很小,这一区域的变异性就小于计数值更大的另一区域的变异性。在这种情况下,平方根变换将有助于使整个研究区域内的方差更加恒定,通常还会使数据呈正态分布。平方根变换是 Box-Cox 变换中 λ = ½ 时的特例。

对数变换
对数变换实际上是 Box-Cox 变换中 λ = 0 时的特例。对数变换通常用于呈正偏分布的数据。其中有些值非常大,如果这些大值位于研究区域中,对数变换有助于使方差更加恒定和归一化数据。

例如数据如下分布:

变换前后对比:

反正弦变换
反正弦变换可用于表示比例或百分比的数据。通常在数据为比例形式时,方差在接近 0 和 1 时最小,接近 0.5 时最大。反正弦变换有助于使整个研究区域内的方差更加恒定,通常还会使数据呈正态分布。

Ⅱ 是否存在异常值?

全局异常值是相对于数据集中的所有值而言具有非常高值或非常低值的已测量采样点。
局部异常值是一个已测量采样点,其值处于整个数据集的正常值域范围内,但查看周围点时,其值则显得异常高或异常低。

如果异常值是现象中的真实异常情况,那么这可能是研究和理解现象的最重要的位置点。如果异常值是由数据输入过程中的错误所导致的,那么在创建表面之前应该对其进行校正或移除。

Histogram/直方图

如果在直方图的最左侧(极小值)或最右侧(极大值)能够看到一个孤立的条,可能表明这个条所表示的点是异常值。这种条越孤立于直方图的主条组,点是异常值的概率就越大。

Voronoi 图

Voronoi 图是由采样点形成的泰森多边形地图。

在查看 Voronoi 图时,检查附近是否有面符号色彩差别很大的值。

例如,下图中红色面明显异于周围值。

Semivariogram/Covariance Cloud / 半变异函数/协方差云

半变异函数/协方差云工具可以用来检查数据集中空间自相关的局部特征以及查找局部异常值。

云中的每个点表示数据集中的一对点,x 轴表示各位置间的距离,y 轴表示这些位置上的值的差值平方。半变异函数中的每个点都表示一个位置对,而不是地图上的单个位置。因此云中点的数量会随着数据集中点的数量的增加而快速增加。如果数据集中存在 n 个点,则半变异函数/协方差云中将显示 n*(n-1)/2 个点。因此,不建议使用点数超过几千个的数据集。如果数据集包含几千个点,那么应使用子集要素工具来随机选择点,然后在半变异函数/协方差云中使用子集。

“半变异函数/协方差云”工具对检测局部异常值特别有用。它们显示为互相接近的点(x 轴上的低值),但在 y 轴上却是高值,表明组成点对的两个点的值有很大差异。这与所期望的结果正相反,即互相接近的点有相似的值。

Ⅲ 是否存在趋势?

Trend Analyst / 趋势分析

“趋势分析”工具提供数据的三维透视图。采样点的位置绘制在 x,y 平面上,z值表示感兴趣的属性值。趋势分析工具将散点图投影到 x,z 平面和 y,z 平面上,通过多项式曲线对每个投影进行了拟合。

浏览图形垂直墙面上的粗线。这些线表示趋势。一条趋势线沿 x 轴(通常表示纵向趋势),另一条显示沿 y 轴的趋势(通常表示纬度趋势)。如果经过投影点的曲线是平的,则不存在趋势;如果多项式曲线具有确切的模式(如下图的蓝线和绿线),这表明数据中存在某种趋势。

另外,检查趋势时更改多项式的阶非常有用;检查不同于标准 N–S 和 E–W 方向的趋势非常有帮助,可以通过旋转趋势轴检查数据。

Ⅳ 是否空间自相关?

我们可通过检查不同的位置的采样数据对来探索数据的空间自相关,仍然使用前面提到过的ESDA工具半变异函数云。

Semivariogram/Covariance Cloud / 半变异函数/协方差云

如果存在空间相关性,则距离较近的点对(在 x 轴的最左侧)应具有较小的差值(在 y 轴上的值较小)。随着各个点之间的距离越来越大(点在 x 轴上向右移动),通常,差值的平方也应随之增大(在 y 轴上向上移动)。通常,平方差超过某个距离后就会保持不变。超过这个距离的位置对被视为不相关。

如果半变异函数中的点对构成一条水平的直线,那么数据中可能不存在空间自相关,因而对数据进行插值也就失去了意义。

地统计方法的基本假设是,对于任意两个彼此间的距离和方向都相近的位置,其差值的平方也应相近。这种关系称为平稳性。空间自相关可能仅依赖于两个位置之间的距离,这被称为各向同性。如果事物在某些方向上比在其他方向上更相似,也就是半变异函数和协方差中都存在这种方向性影响,它被称为各向异性

交叉协方差云

“交叉协方差云”工具可用于研究两个数据集之间的交叉相关。交叉协方差云显示了两个数据集间的所有位置对的经验交叉协方差,并且将其作为两位置间距离的函数对其进行绘制,与上面的工具类似,该工具也提供具有搜索方向功能的协方差表面。

对数据有了第一印象,并且用 ESDA 工具对数据做了检查,我们已经对待研究的数据有了一些先验知识,那么下面就可以选择插值方法来创建表面了,下一篇继续。

时间: 2024-10-10 07:29:52

地统计分析笔记——探索数据的相关文章

地统计分析笔记(一)探索数据

在执行地统计分析之前,浏览.熟悉.检查自己的数据是至关重要的.绘制和检查数据是地统计分析过程中的必要阶段,我们可以从这些工作中获得一些先验知识,指导后续的工作. Stage 1 绘制数据 通过ArcMap的图层渲染方案绘制数据,我们可以获得对数据的第一印象. 例如,使用单一符号渲染了解采样点的疏密分布,通过分类渲染了解采样点高值低值的分布,等等. Stage 2 检查数据 绘制数据后,使用 探索性空间数据分析 (Exploratory Spatial Data Analysis,ESDA) 工具

《数据挖掘导论》 - 读书笔记(4) - 探索数据 [2016-8-20]

第3张 探索数据 第2章讨论知识发现过程中重要的高层数据问题.本章是数据探索,对数据进行初步研究,以便更好地理解它的特殊性质.数据探索有助于选择合适的数据预处理和数据分析技术.甚至可以处理一些通常由数据挖掘解决的问题.例如,有时可以通过对数据进行直观检查来发现模式. 本章包括三个主题:汇总统计.可视化和联机分析处理OLAP.汇总统计(如值集合的均值和标准差)和可视化技术是广泛用于数据探索的标准方法.OLAP的分析功能集中在从多为数据数组中创建汇总表的各种方法.OLAP技术包括在不同的维上或不同的

7.CCNA第七天-探索数据转发

广播域.广播(地址上分为二层广播地址.三层广播地址) (二层)交换机的转发是依据目的MAC地址 (三层)定向.全局  ----转发范围是广播域,响应者不同 未知单播泛洪  ----是交换机的一种为了实现数据通信的转发机制 路由 路由(通常指路由条目)能够为本地的主机将数据转发到远端网络 路由器 负责构建路由表,并为主机提供数据转发服务 每一个接口,是一个广播域 查看路由表 Branch#show ip route Codes: L - local, C - connected, S - stat

python 学习笔记 3 -- 数据结构篇上

数据结构是可以处理一些 数据 的 结构 .或者说,它们是用来存储一组相关数据的.在Python中有三种内建的数据结构--列表.元组和字典.本文主要对这三种数据类型以及相关的使用做介绍,以例子的形式演示更加容易理解! 1.列表(List) 列表是处理一组有序项目的数据结构,即你可以在一个列表中存储一个 序列 的项目.在Python中,你在每个项目之间用逗号分割. 列表中的项目应该包括在**方括号**中,这样Python就知道你是在指明一个列表.一旦你创建了一个列表,你可以添加.删除或是搜索列表中的

python 学习笔记 3 -- 数据结构篇下

5.引用 当你创建一个对象并给它赋一个变量的时候,这个变量仅仅 引用 那个对象,而不是表示这个对象本身!也就是说,变量名指向你计算机中存储那个对象的内存.这被称作名称到对象的绑定.eg. [python] view plaincopy # -*- coding: utf-8 -*- shoplist = ['apple', 'mango', 'carrot', 'banana'] print "we copy the shoplist to mylist directly \"with

一起学微软Power BI系列-官方文档-入门指南(5)探索数据奥秘

我们几篇系列文章中,我们介绍了官方入门文档与获取数据等基本知识.今天继续给大家另外一个重点,探索数据奥秘.有了数据源,有了模型,下一步就是如何解析数据了.解析数据的过程需要很多综合技能,不仅仅是需要掌握Power BI的功能要点,熟练的利用一些新功能来提高效率,同时还需要合理的利用仪表盘,以及合理的调整对象,同时作为一个完整的应用,必须掌握数据刷新和同步的技巧,避免做重复工作. 本文原文地址:一起学微软Power BI系列-官方文档-入门指南(5)探索数据奥秘 Power BI系列文章地址:微软

springmvc学习笔记(15)-数据回显

springmvc学习笔记(15)-数据回显 springmvc学习笔记15-数据回显 pojo数据回显方法 简单类型数据回显 本文介绍springmvc中数据回显的几种实现方法 数据回显:提交后,如果出现错误,将刚才提交的数据回显到刚才的提交页面. pojo数据回显方法 1.springmvc默认对pojo数据进行回显. pojo数据传入controller方法后,springmvc自动将pojo数据放到request域,key等于pojo类型(首字母小写) 使用@ModelAttribute

Android开发学习笔记:数据存取之SQLite浅析

一.SQLite的介绍 1.SQLite简介 SQLite是一款轻型的数据库,是遵守ACID的关联式数据库管理系统,它的设计目标是嵌入 式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非常的低,在嵌入式设备中,可能只需要几百K的内存就够了.它能够支持 Windows/Linux/Unix等等主流的操作系统,同时能够跟很多程序语言相结合,比如Tcl.PHP.Java.C++..Net等,还有ODBC接口,同样比起 Mysql.PostgreSQL这两款开源世界著名的数据库管理系统来讲,它的

统计分析基础 (一) 数据统计与图表

统计分析基础 (一)数据统计与图表 1 数据统计 1.1 统计学 统计学是在数据分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科.它是研究如何测定.收集.整理.归纳和分析反映数据,以便给出正确消息的科学.统计广泛地应用在各门学科,从自然科学.社会科学到人文学科,甚至被用来工商业及政府的情报决策之上,目前比较热门的应用:经济学,医学,心理学等.随着大数据(Big Data)时代来临,统计的面貌也逐渐改变,与信息.计算等领域密切结合,是数据科学(Data Science)中的重要主轴之一.