python练习三—解析xml

使用python解析xml,主要使用sax的ContentHandler中的标签开始和标签结束的方法驱动,然后在开始(或者结束)事件中决定使用什么处理方法,使用dispatcher来决定并分发到指定方法内处理处理流程如下:

  • 初始化的时候创建一个目录list
  • 遇到page在当前目录下新建一个html文件,标志接下来的标签是要使用default处理,写到html页面中
  • 遇到page内部的标签,使用default处理
  • 遇到page结束标签,该html写完,填充结尾标签,关闭流
  • 遇到directory标签,往directory的list】中添加下以及目录名称
  • 遇到page重复第1,2,3步
  • 解析完成

代码如下

#! /usr/bin/env python
# -*- coding=utf-8 -*-

import os
import sys
from xml.sax.handler import ContentHandler
from xml.sax import parse

class Dispatcher:
    ‘‘‘
    根据具体的xml标签分发到具体的解析函数解析
    ‘‘‘

    def dispatch(self, prefix, name, attrs=None):
        mname = prefix + name.capitalize()
        dname = ‘default‘ + prefix.capitalize()
        method = getattr(self, mname, None)
        if callable(method):
            # 如果有该标签的处理方法则使用该方法处理,并初始化需要传递的参数
            args = ()
        else:
            # 如果没有该标签的处理方法,则采用默认的处理方法,将标签内的内容作为正文
            method = getattr(self, dname, None)
            # 默认处理函数需要传递标签名称
            args = name,
        # 如果是调用开始处理函数, 需要传递该标签的属性
        if prefix == ‘start‘:
            args += attrs,
        if callable(method):
            method(*args)

    # 重载父类的startElement方法
    def startElement(self, name, attrs):
        self.dispatch(‘start‘, name, attrs)

    # 重载父类的endElement方法
    def endElement(self, name):
        self.dispatch(‘end‘, name)

class WebsiteConstructor(Dispatcher, ContentHandler):
    ‘‘‘
    分析website.xml构建html网页
    ‘‘‘

    # 该标签是否是正文,是否被page包裹,是否需要解析
    passthrough = False

    def __init__(self, directory):
        self.directory = [directory]
        self.ensureDirectory()

    def ensureDirectory(self):
        path = os.path.join(*self.directory)
        if not os.path.isdir(path):
            os.makedirs(path)

    def characters(self, chars):
       if self.passthrough:
           self.out.write(chars)
    def defaultStart(self, name, attrs):
        if self.passthrough:
            self.out.write(‘<‘ + name)
            print ‘-----‘
            print attrs
            for key, val in attrs.items():
                self.out.write(‘ %s=%s‘ % (key, val))
                print key,val
            self.out.write(‘>‘)
    def defaultEnd(self, name):
        if self.passthrough:
            self.out.write(‘</%s>‘ % name)

    def startDirectory(self, attrs):
        self.directory.append(attrs[‘name‘])
        self.ensureDirectory()

    def endDirectory(self):
        self.directory.pop()

    def startPage(self, attrs):
        filename = os.path.join(*self.directory + [attrs[‘name‘] + ‘.html‘])
        self.out = open(filename, ‘w‘)
        print os.path
        print filename
        print self.directory
        print self.directory + [attrs[‘name‘] + ‘.html‘]
        self.writeHeader(attrs[‘title‘])
        self.passthrough = True

    def endPage(self):
        self.passthrough = False
        self.writeFooter()
        self.out.close()

    def writeHeader(self, title):
        self.out.write(‘<html>\n    <head>\n    <title>‘)
        self.out.write(title)
        self.out.write(‘</title>\n  </head>\n   <body>\n‘)

    def writeFooter(self):
        self.out.write(‘\n  </body>\n</html>\n‘)

# 执行程序
parse(‘website.xml‘, WebsiteConstructor(‘public_html‘))

参照书中写完代码之后,发现"args += attrs"一直报错,调试的时候发现

TypeError: coercing to Unicode: need string or buffer, instance found

在"+="运算符连边需要的是string或者buffer,实际上是instance,在这条语句里面attrs是AttributesImpl的对象,前面"args = name"将name赋值给args,args是string,所以attrs类型不对,一开始还以为是ContentHandler API改变了(因为该书已经比较早了),在ipython交互命令行中查看帮助文档,发现没有错,折腾调试了挺久,对照书中源码发现有两处少了",",当时已经疯了。。。。。

args = name,
args += attrs,

少了上面两个逗号,内心的崩溃啊,由此可见自己python基本知识还是漏了

args = name # args仅仅是一个对象,并不是元组
args = name, # args是一个元组

一个逗号引发的血案。。。。。

还有就是"+=",该运算符两边类型必须一致,都是字符串(列表,元组)



完整代码

http://pan.baidu.com/s/1pLqxLKv

时间: 2024-11-10 07:53:09

python练习三—解析xml的相关文章

Python中用ElementTree解析XML

[XML基本概念介绍] XML 指可扩展标记语言(eXtensible Markup Language). XML 被设计用来传输和存储数据. 概念一: <foo> # foo元素的起始标签 </foo> # foo元素的结束标签 # note: 每一个起始标签必须有对应的结束标签来闭合, 也可以写成<foo/> 概念二: <foo> # 元素可以嵌套到任意参次 <bar></bar> # bar元素为foo元素的子元素 </f

python使用SAX解析xml

python 标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件 在python中使用sax方式处理xml要先引入xml.sax中的parse函数,还有xml.sax.handler中的ContentHandler ContentHandler类方法介绍 # characters(content)方法# 调用时机:# 从行开始,遇到标签之前,存在字符,content的值为这些字符串.# 从一个标签,遇到下一个标签之前,

Python使用ElementTree解析XML【译】

19.7. xml.etree.ElementTree — The ElementTree XML API 源代码: Lib/xml/etree/ElementTree.py Element类型是一种灵活的容器对象,用于在内存中存储层次数据结构.可以说是list和dictionary的交叉. 注意: xml.etree.ElementTree 模块对含有恶意代码的数据是不安全的.如果你想处理不信任的数据请使用 XML vulnerabilities. 每个element都有一系列相关属性: 标签

python使用ElementTree解析XML文件

一.将XML网页保存到本地 要加载XML文件首先应该将网页上的信息提取出来,保存为本地XML文件.抓取网页信息可以python的urllib模块. 代码如下: from urllib import urlopen url = "http://********/**" resp = urlopen(url).read() f = open('文件保存路径', 'w') f.write(resp) f.close() 二.解析XML文件 python有许多可以用来解析XML文件的函数,在这

python 使用ElementTree解析xml

以country.xml为例,内容如下: <?xml version="1.0"?> <data> <country name="Liechtenstein"> <rank updated="yes">2</rank> <year>2008</year> <gdppc>141100</gdppc> <neighbor name=&qu

python解析xml并按照其结构输出

平时写代码需要将一个xml文件按照其结构,将每个节点列出来,如: <root> <person age="18"> <name>hzj</name> <sex>man</sex> </person> <person age="19" des="hello"> <name>kiki</name> <sex>female

使用python如何解析XML?

本文和大家分享的主要是使用python解析XML相关内容,一起来看看吧,希望对大家学习python有所帮助. 什么是XML? XML 指可扩展标记语言(e X tensible M arkup L anguage). XML 被设计用来传输和存储数据. XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识. 它也是元标记语言,即定义了用于定义其他与特定领域有关的.语义的.结构化的标记语言的句法语言. python对XML的解析 常见的XML编程接口有DOM和SAX,这两

Python解析XML文件

python对XML的解析 常见的XML编程接口有DOM和SAX,这两种接口处理XML文件的方式不同,当然使用场合也不同. python有三种方法解析XML,SAX,DOM,以及ElementTree: 1.SAX (simple API for XML ) pyhton 标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件. 2.DOM(Document Object Model) 将XML数据在内存中解析成一个树,通过

Python:使用基于事件驱动的SAX解析XML

SAX的特点: 是基于事件的 API 在一个比 DOM 低的级别上操作 为您提供比 DOM 更多的控制 几乎总是比 DOM 更有效率 但不幸的是,需要比 DOM 更多的工作 基于对象和基于事件的接口 您可能已经知道语法分析器有两类接口 - 基于对象的(如:DOM)和基于事件(如:SAX)的接口. DOM是基于对象的语法分析器的标准 API. 作为基于对象的接口,DOM 通过在内存中显示地构建对象树来与应用程序通信.对象树是 XML 文件中元素树的精确映射. DOM 易于学习和使用,因为它与基本