Python: xml转json

1,引言

GooSeeker早在9年前就开始了Semantic Web领域的产品化,MS谋数台和DS打数机是其中两个产品。对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering。所以这两款产品的输出信息是XML格式的,实现第一步:结构化转换。单纯作为一个网页采集器来说,输出XML格式也有好处,这是一种标准格式,后续的数据处理可以很容易地接入,任意发挥。

在web集成和网站前端领域,json越来越普遍,在Scrapy架构中,Scrapy dict数据结构本质上就是json,所以,由XML格式转换成JSON格式很有必要。

无论哪种编程语言,XML转Json都有很多现成的程序包,但是,就像前面说的,GooSeeker定义的XML格式主要用来做实体建模,有自己规定的一套语义结构描述标准。所以,不能直接使用现成的转换程序,或者需要在现成的转换程序上做些修改。

本文是一个实验过程,并没有考虑GooSeeker要求的语义结构,只是验证一下XML到Json的转换。

2,实验用的XML文件

我们使用《python爬虫实战(2):爬取京东商品列表》一文的结果文件,python爬虫爬取的结果保存在 京东手机列表_1.xml 文件中。内容如下图所示

下面针对这个结果文件先做个xml转json的测试,为提取器gsExtractor添加输出Json文件的功能做技术准备。

3,测试过程

代码如下:

#! /usr/bin/env python
# -*- coding:utf-8 -*-
# xml 转 json
# xml2json.py
# Version 1.0

from xml.parsers.expat import ParserCreate
import json

class Xml2Json:
    LIST_TAGS = [‘COMMANDS‘]
    
    def __init__(self, data = None):
        self._parser = ParserCreate()
        self._parser.StartElementHandler = self.start
        self._parser.EndElementHandler = self.end
        self._parser.CharacterDataHandler = self.data
        self.result = None
        if data:
            self.feed(data)
            self.close()
        
    def feed(self, data):
        self._stack = []
        self._data = ‘‘
        self._parser.Parse(data, 0)

    def close(self):
        self._parser.Parse("", 1)
        del self._parser

    def start(self, tag, attrs):
        assert attrs == {}
        assert self._data.strip() == ‘‘
        self._stack.append([tag])
        self._data = ‘‘

    def end(self, tag):
        last_tag = self._stack.pop()
        assert last_tag[0] == tag
        if len(last_tag) == 1: #leaf
            data = self._data
        else:
            if tag not in Xml2Json.LIST_TAGS:
                # build a dict, repeating pairs get pushed into lists
                data = {}
                for k, v in last_tag[1:]:
                    if k not in data:
                        data[k] = v
                    else:
                        el = data[k]
                        if type(el) is not list:
                            data[k] = [el, v]
                        else:
                            el.append(v)
            else: #force into a list
                data = [{k:v} for k, v in last_tag[1:]]
        if self._stack:
            self._stack[-1].append((tag, data))
        else:
            self.result = {tag:data}
        self._data = ‘‘

    def data(self, data):
        self._data = data

if __name__ == ‘__main__‘:
    xml = open("京东手机列表_1.xml", ‘r‘, encoding=‘UTF-8‘).read()
    result = Xml2Json(xml).result;
    outputfile = open("京东手机列表_1.json", ‘w‘, encoding=‘UTF-8‘)
    outputfile.write(str(result))
    outputfile.close()
  • 在控制台运行:  $ python xml2json.py
  • 测试输出:京东手机列表_1.json。运行后在当前文件夹下可以看到新生成的json文件

4,接下来的工作

  • 升级gsExtractor提取器类,加入新的方法,支持把提取结果从xml转换为json格式
  • 转换成的json结构必须符合GooSeeker要求的语义描述结构,为直接存入MongoDB做准备

5,相关文档
1,Python即时网络爬虫项目: 内容提取器的定义
2,Python爬虫实战(2):爬取京东商品列表

6,集搜客GooSeeker开源代码下载源
1, GooSeeker开源Python网络爬虫GitHub源

7,文档修改历史

2016-06-20:V1.0,首次发布

时间: 2024-10-16 03:30:32

Python: xml转json的相关文章

使用python开发app后台,xml和json的区别

xml和json的区别 在Javascript地盘内,JSON毕竟是主场作战,其优势当然要远远优越于xml. 还是易用性,JSON的可读性比XML强几条长安街,解析规则也简单许多.XML解析的时候规则太多了,动不动就非法字符,动不动就抛异常.这对追求高开发速度和低开发门槛的企业来说,是个致命伤. JSON的缺点是数据类型支持较少,且不精确.比方说: price:12580 在json里,你无法知道这个价格是int, float还是double. 所以,如上面第二条所述,在一些业务要求较高的领域,

python 不借助第三方包实现xml转json

xml转json?猛一听是不是挺蛋疼的,都是结构化数据的格式有这转换的必要么?是的,其实我也觉得无聊,不过手痒痒,总想来试试.网上也能找到一款名为xmltodict的转换工具,也挺好用的.我的方法如下,原理很简单,代码也很短. xml文件:testXml.xml <?xml version="1.0" encoding="utf-8"?> <root> <person age="18"> <name>

python cookbook第三版学习笔记七:python解析csv,json,xml文件

CSV文件读取: Csv文件格式如下:分别有2行三列. 访问代码如下: f=open(r'E:\py_prj\test.csv','rb') f_csv=csv.reader(f) for f in f_csv:     print f 在这里f是一个元组,为了访问某个字段,需要用索引来访问对应的值,如f[0]访问的是first,f[1]访问的是second,f[2]访问的是third. 用列索引的方式很难记住.一不留神就会搞错.可以考虑用对元组命名的方式 这里介绍namedtuple的方法.

XML和JSON比较

目前,在web开发领域,主要的数据交换格式有XML和JSON,对于XML相信每一个web developer都不会感到陌生:相比之下,JSON可能对于一些新步入开发领域的新手会感到有些陌生,也可能你之前已经听说过,但对于XML和 JSON的不同之处可能会不怎么了解.对于在 Ajax开发中,是选择XML还是JSON,一直存在着争议,个人还是比较倾向于JSON的,虽然JSON才处于起步阶段,但我相信JSON最终会取代XML成为Ajax的首选,到时Ajax可能要更名为Ajaj(Asynchronous

全面剖析XML和JSON

1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. XML使用DTD(document type definition)文档类型定义来组织数据;格式统一,跨平台和语言,早已成为业界公认的标准.XML是标准通用标记语言 (SGML) 的子集,非常适合 Web 传输.XML 提供统一的方法来描述和交换独立于应用程序

JSON取代XML?--JSON入门指南

定义 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等). 这些特性使JSON成为理想的数据交换语言. JSON研究中要关注的命题 1.JSON与XML的比较: 同 XML 或 HTML 片段相比,JSON 提供了更好的简单性和灵活性. 2.JSON序列化的操作: 参考文献 1.JSON

XML和JSON的区别

1.XML扩展标记语言 (Extensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. XML使用DTD(document type definition)文档类型定义来组织数据;格式统一,跨平台和语言,早已成为业界公认的标准.XML是标准通用标记语言 (SGML) 的子集,非常适合 Web 传输.XML 提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据.

数据解析之XML和JSON

1. 解析的基本的概念 解析:从事先规定好的格式中提取数据 解析前提:提前约定好格式,数据提供方按照格式提供数据.数据获取方则按照格式获取数据 iOS开发常见的解析:XML解析.JOSN解析 2. XML数据结构 1> 概述 XML:Extensible markup language(可扩展标记语言),主流数据格式之一,可以用来存储和传输数据. 2> XML数据格式的功能 数据交换 内容管理 用作配置文件 3> XML数据格式的语法 声明 节点使用一对标签表示:起始和结束标签. 根节点

xml 和 json 的区别

JSON(Javascript Object Notation) 是一种轻量级的数据交换格式.易于人阅读和编写.同时也易于机器解析和生成.它基于Javascript Programming Language, Standard ECMA-262 3rd Edition – December 1999的一个子集.JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, Javascript, Perl, Python等).这些特性使JSON成