(数据科学学习手札65)利用Python实现Shp格式向GeoJSON的转换

一、简介

  Shp格式是GIS中非常重要的数据格式,主要在Arcgis中使用,但在进行很多基于网页的空间数据可视化时,通常只接受GeoJSON格式的数据,众所周知JSON(JavaScript Object Nonation)是利用键值对+嵌套来表示数据的一种格式,以其轻量、易解析的优点,被广泛使用与各种领域,而GeoJSON就是指在一套规定的语法规则下用JSON格式存储矢量数据,本文就将针对GeoJSON的语法规则,以及如何利用Python完成Shp格式到GeoJSON格式的转换进行介绍。

二、Shp转GeoJSON

2.1 GeoJSON格式说明

  GeoJSON本质依旧是JSON,其基本格式如下:

{
  "type": "FeatureCollection",
  "features": []
}

  一个完整的GeoJSON文件最外层为一个字典,把整个GeoJSON文件看做自顶向下的树状结构的话,其根目录包含键值对"type":"FeaturesCollection",以及存放所有要素的键值对"features":[],所有矢量要素都存放在这个列表中,每个要素都是一个字典,下面我们来认识一下各种矢量要素在GeoJSON中的规范格式:

点要素(Point):

  对于单个点要素,其格式如下:

{"type":"Feature",
    "properties":{value1,value2},
    "geometry":{
        "type":"Point",
        "coordinates":[经度,纬度]
        }
    }

  其中properties对应的值为这个要素对应的属性表中按顺序存放的值,geometry对应的值中type指明了要素类型,coordinates传入一个包含两个元素的列表,第一个元素代表经度,第二个元素代表纬度。

多点要素(MultiPoint):

  多点要素是点要素的特殊情况,其geometry下的type属性传入"MultiPoint",其coordinates属性传入的是一个二维列表,其最内层列表定义了每个点的经纬度,如下:

{"type":"Feature",
    "properties":{value1,value2},
    "geometry":{
        "type":"MultiPoint",
        "coordinates":[[经度1,纬度1],
                [经度2,纬度2]
            ]
        }
        }

线要素(LineString):

  线要素记录的是一条线上所有折点的经纬度信息,只需要按顺序连接这些折点就可以还原一条线的形态,在GeoJSON中线要素与多点要素在coordinates属性上格式相同,区别在于geometry属性需要传入"LineString",如下:

{"type":"Feature",
    "properties":{value1,value2},
    "geometry":{
        "type":"LineString",
        "coordinates":[[经度1,纬度1],
        [经度2,纬度2],
        [经度3,纬度3],
        [经度4,,纬度4]]
        }
    }

多线要素(MultiLineString):

  多线要素是多个线要素的组合,因此其coordinates传入三维列表,来组合多条线,对应的geometry下type属性为"MultiLineString",如下:

{"type":"Feature",
    "properties":{value1,value2},
    "geometry":{
        "type":"MultiLineString",
        "coordinates":
        [
            [
                [经度1,纬度1],
                [经度2,纬度2],
                [经度3,纬度3],
                [经度4,纬度4]
            ],
            [
                [经度5,纬度5],
                [经度6,纬度6]
            ]
        ]
                }
    }

多边形要素(Polygon):

  多边形要素记录了构成一个多边形所有边缘折点的经纬度信息,其coordinates属性传入"Polygon",其geometry下type属性格式为三维列表,其第三层列表中嵌套的所有列表记录的经纬度按顺序连接即构成了一个多边形,但需要注意的是,多边形头尾折点的经纬度需要相同,才能构成一个闭合的多边形,如下:

{"type":"Feature",
    "properties":{value1,value2},
    "geometry":{
        "type":"Polygon",
        "coordinates":[
                        [
                          [经度1,纬度1],
                          [经度2,纬度2],
                          [经度3,纬度3],
                          [经度4,纬度4],
                          [经度1,纬度1]
                        ]
                      ]
        }
    }

多多边形要素(MultiPolygon):

  多多边形的格式为四维列表,其geometry下type属性传入"MultiPloygon",由于多多边形要素中存在几种特殊情况,下面我们在geojson.io中进行对应GeoJSON数据的可视化以便于理解:

  互不重叠的两个多边形:

  下面是互不重叠的两个多边形的示例:

  对应的GeoJSON数据如下:

{
  "type": "Feature",
  "properties": {},
  "geometry": {
  "type": "MultiPolygon",
  "coordinates":
    [
        [
            [
                [102.74414062499999,36.217687122250574],
                [102.7001953125,35.585851593232356],
                [104.8590087890625,35.496456056584165],
                [104.96337890625,36.24427318493909],
                [102.74414062499999,36.217687122250574]
            ]
        ],
        [
            [
                [102.6397705078125,35.074964853989556],
                [103.0352783203125,34.23905366851639],
                [105.00732421875,34.24813554589752],
                [105.3973388671875,35.77771427205079],
                [104.556884765625,35.05698043137265],
                [102.711181640625,35.16931803601131],
                [102.6397705078125,35.074964853989556]
            ]
        ]
    ]
             }
}

  可以看到在多个多边形不重叠时,直接将两个多边形要素对应的三维列表存放在最外层列表下即可。

  互有重叠的两个多边形:

  互有重叠的多个多边形要素格式同多个不重叠的多边形,效果如下:

  对应的GeoJSON数据如下:

{
  "type": "Feature",
  "properties": {},
  "geometry": {
    "type": "MultiPolygon",
    "coordinates": [
      [
        [
          [101.6455078125,27.68352808378776],
          [114.78515624999999,27.68352808378776],
          [114.78515624999999, 35.209721645221386],
          [101.6455078125,35.209721645221386],
          [101.6455078125,27.68352808378776]
        ]
      ],
      [
        [
          [104.2822265625,30.107117887092357],
          [108.896484375,30.107117887092357],
          [108.896484375,33.76088200086917],
          [104.2822265625,33.76088200086917],
          [104.2822265625,30.107117887092357]
        ]
      ]
    ]
  }
}

  有孔的多边形:

  有孔的多边形在类别上也是归类到MultiPolygon,下面是一个示例:

  对应的GeoJSON数据如下,可以看出其与多个重叠的多边形的区别在于多边形矢量信息嵌套在第二层列表中:

{
      "type": "Feature",
      "properties": {},
      "geometry": {
        "type": "MultiPolygon",
        "coordinates":
    [
        [
            [
                [101.6455078125,27.68352808378776],
                [114.78515624999999,27.68352808378776],
                [114.78515624999999,35.209721645221386],
                [101.6455078125,35.209721645221386],
                [101.6455078125,27.68352808378776]
            ],
            [
                [104.2822265625,30.107117887092357],
                [108.896484375,30.107117887092357],
                [108.896484375,33.76088200086917],
                [104.2822265625,33.76088200086917],
                [104.2822265625,30.107117887092357]
            ]
        ]
    ]
  }
}

 


2.2 将Shp格式转换为GeoJSON

  在2.1中我们较为详细的了解到矢量数据在GeoJSON数据中具体的表现形式,通过下面的自编函数,以Shp文件名称(去除文件拓展名)、Shp文件编码、GeoJSON文件编码为输入参数:

def Shp2JSON(filename,shp_encoding=‘utf-8‘,json_encoding=‘utf-8‘):
    ‘‘‘
    这个函数用于将shp文件转换为GeoJSON文件
    :param filename: shp文件对应的文件名(去除文件拓展名)
    :return:
    ‘‘‘

    ‘‘‘创建shp IO连接‘‘‘
    reader = shapefile.Reader(filename,encoding=shp_encoding)

    ‘‘‘提取所有field部分内容‘‘‘
    fields = reader.fields[1:]

    ‘‘‘提取所有field的名称‘‘‘
    field_names = [field[0] for field in fields]

    ‘‘‘初始化要素列表‘‘‘
    buffer = []

    for sr in tqdm(reader.shapeRecords()):
        ‘‘‘提取每一个矢量对象对应的属性值‘‘‘
        record = sr.record

        ‘‘‘属性转换为列表‘‘‘
        record = [r.decode(‘gb2312‘,‘ignore‘) if isinstance(r, bytes)
                  else r for r in record]

        ‘‘‘对齐属性与对应数值的键值对‘‘‘
        atr = dict(zip(field_names, record))

        ‘‘‘获取当前矢量对象的类型及矢量信息‘‘‘
        geom = sr.shape.__geo_interface__

        ‘‘‘向要素列表追加新对象‘‘‘
        buffer.append(dict(type="Feature",
                           geometry=geom,
                           properties=atr))

    ‘‘‘写出GeoJSON文件‘‘‘
    geojson = codecs.open(filename + "-geo.json","w", encoding=json_encoding)
    geojson.write(json.dumps({"type":"FeatureCollection",
                              "features":buffer}) + ‘\n‘)
    geojson.close()
    print(‘转换成功!‘)

  下面我们通过一个示例来展示实际转换效果,使用到的Shp数据为中国省份数据,在arcgis中效果如下:

import shapefile
import json
import codecs

def Shp2JSON(filename,shp_encoding=‘utf-8‘,json_encoding=‘utf-8‘):
    ‘‘‘
    这个函数用于将shp文件转换为GeoJSON文件
    :param filename: shp文件对应的文件名(去除文件拓展名)
    :return:
    ‘‘‘

    ‘‘‘创建shp IO连接‘‘‘
    reader = shapefile.Reader(filename,encoding=shp_encoding)

    ‘‘‘提取所有field部分内容‘‘‘
    fields = reader.fields[1:]

    ‘‘‘提取所有field的名称‘‘‘
    field_names = [field[0] for field in fields]

    ‘‘‘初始化要素列表‘‘‘
    buffer = []

    for sr in tqdm(reader.shapeRecords()):
        ‘‘‘提取每一个矢量对象对应的属性值‘‘‘
        record = sr.record

        ‘‘‘属性转换为列表‘‘‘
        record = [r.decode(‘gb2312‘,‘ignore‘) if isinstance(r, bytes)
                  else r for r in record]

        ‘‘‘对齐属性与对应数值的键值对‘‘‘
        atr = dict(zip(field_names, record))

        ‘‘‘获取当前矢量对象的类型及矢量信息‘‘‘
        geom = sr.shape.__geo_interface__

        ‘‘‘向要素列表追加新对象‘‘‘
        buffer.append(dict(type="Feature",
                           geometry=geom,
                           properties=atr))

    ‘‘‘写出GeoJSON文件‘‘‘
    geojson = codecs.open(filename + "-geo.json","w", encoding=json_encoding)
    geojson.write(json.dumps({"type":"FeatureCollection",
                              "features":buffer}) + ‘\n‘)
    geojson.close()
    print(‘转换成功!‘)

if __name__ == ‘__main__‘:
    import os
    os.chdir(r‘C:\Users\hp\Desktop\飞线图素材‘)
    Shp2JSON(filename=‘bou2_4p.shp‘,
             shp_encoding=‘gbk‘,
             json_encoding=‘utf-8‘)

  运行之后同一目录下出现对应的json文件:

  导入到Kepler.gl中进行可视化:

from keplergl import KeplerGl
import json

with open(‘bou2_4p.shp-geo.json‘) as b:
    data = json.load(b)

map1 = KeplerGl(height=700,data={‘layer1‘:data});map1

  

  以上就是本文的全部内容,如有笔误望指出!

原文地址:https://www.cnblogs.com/feffery/p/11153198.html

时间: 2024-10-08 18:04:54

(数据科学学习手札65)利用Python实现Shp格式向GeoJSON的转换的相关文章

(数据科学学习手札32)Python中re模块的详细介绍

一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供了一系列方法来完成几乎全部类型的文本信息的处理工作,下面一一介绍: 二.re.compile() 在前一篇文章中我们使用过这个方法,它通过编译正则表达式参数,来返回一个目标对象的匹配模式,进而提高了正则表达式的效率,主要参数如下: pattern:输入的欲编译正则表达式,需将正则表达式包裹在''内传

(数据科学学习手札54)Python中retry的简单用法

一.简介 retry是一个用于错误处理的模块,功能类似try-except,但更加快捷方便,本文就将简单地介绍一下retry的基本用法. 二.基本用法 retry: 作为装饰器进行使用,不传入参数时功能如下例所示: from retry import retry @retry() def demo(): print('错误') raise demo() 我们编写了每次运行都会通过raise报错的自定义函数demo(),利用默认参数的retry()进行装饰,运行结果如下: 可以看到,retry()

(数据科学学习手札47)基于Python的网络数据采集实战(2)

一.简介 马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集实战 2.1 数据要求 这次我们需要采集的数据是知名旅游网站马蜂窝下重庆区域内所有景点的用户评论数据,如下图所示: 思路是,先获取所有景点的poi ID,即每一个景点主页url地址中的唯一数字: 这一步和(数据科学学习手札33)基于Python的网络数据采集实战(1)中做法类似,即在下述界面: 翻页

(数据科学学习手札55)利用ggthemr来美化ggplot2图像

一.简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原生ggplot2图像进行美化,掌握它之后你就可以创作出更具特色和美感的数据可视化作品. 二.基础内容 2.1 安装 不同于常规的R包,ggthemr并没有在CRAN上发布,因此我们需要使用devtools中的install_github()直接从github上安装它,参照github上ggthemr

(数据科学学习手札70)面向数据科学的Python多进程简介及应用

本文对应脚本已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 进程是计算机系统中资源分配的最小单位,也是操作系统可以控制的最小单位,在数据科学中很多涉及大量计算.CPU密集型的任务都可以通过多进程并行运算的方式大幅度提升运算效率从而节省时间开销,而在Python中实现多进程有多种方式,本文就将针对其中较为易用的几种方式进行介绍. 二.利用multiprocessing实现多进程 multiprocessin

(数据科学学习手札81)conda+jupyter玩转数据科学环境搭建

本文示例yaml文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们在使用Python进行数据分析时,很多时候都在解决环境搭建的问题,不同版本.依赖包等问题经常给数据科学工作流的搭建和运转带来各种各样令人头疼的问题,本文就将基于笔者自己摸索出的经验,以geopandas环境的搭建为例,教你使用conda+jupyter轻松搞定环境的搭建.管理与拓展. 图1 2 虚拟环境的搭建与使用 2.1 使用con

(数据科学学习手札23)决策树分类原理详解&Python与R实现

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画成图形很像一棵树的枝干,故称决策树.在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系. 一.初识决策树 决策树是一种树形结构,一般的,一棵决策树包含一个根结点,若干个内部结点和若干个叶结点: 叶结点:树的一个方向的最末端,表示结果的输出: 根结点:初始样

(数据科学学习手札19)R中基本统计分析技巧总结

在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方法进行总结: 1.描述性统计量部分 1.1 计算描述性统计量的常规方法 summary() summary()函数提供了最小值.最大值.四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计: > #挂载鸢尾花数据 > data(iris) > #计算鸢尾花各变量的基本描述统计量 &

(数据科学学习手札39)RNN与LSTM基础内容详解

一.简介 循环神经网络(recurrent neural network,RNN),是一类专门用于处理序列数据(时间序列.文本语句.语音等)的神经网络,尤其是可以处理可变长度的序列:在与传统的时间序列分析进行比较的过程之中,RNN因为其梯度弥散等问题对长序列表现得不是很好,而据此提出的一系列变种则展现出很明显的优势,最具有代表性的就是LSTM(long short-term  memory),而本文就从标准的循环神经网络结构和原理出发,再到LSTM的网络结构和原理,对其有一个基本的认识和阐述: