【转】XML生成与解析(DOM、ElementTree)

xml.dom篇

DOM是Document Object Model的简称,XML 文档的高级树型表示。该模型并非只针对 Python,而是一种普通XML 模型。Python 的 DOM 包是基于 SAX 构建的,并且包括在 Python 2.0 的标准 XML 支持里。

一、xml.dom的简单介绍

1、主要方法:

minidom.parse(filename):加载读取XML文件

doc.documentElement:获取XML文档对象

node.getAttribute(AttributeName):获取XML节点属性值

node.getElementsByTagName(TagName):获取XML节点对象集合

node.childNodes :返回子节点列表。

node.childNodes[index].nodeValue:获取XML节点值

node.firstChild:访问第一个节点,等价于pagexml.childNodes[0]

返回Node节点的xml表示的文本:

doc = minidom.parse(filename)

doc.toxml(‘UTF-8‘)

访问元素属性:

Node.attributes["id"] 
a.name #就是上面的 "id" 
a.value #属性的值  
2、举例说明

例1:文件名:book.xml

 1 <?xml version="1.0" encoding="utf-8"?>
 2 <info>
 3    <intro>Book message</intro>
 4     <list id=‘001‘>
 5         <head>bookone</head>
 6         <name>python check</name>
 7         <number>001</number>
 8         <page>200</page>
 9     </list>
10
11     <list id=‘002‘>
12         <head>booktwo</head>
13         <name>python learn</name>
14         <number>002</number>
15         <page>300</page>
16     </list>
17
18 </info>

  

(1)创建DOM对象

import xml.dom.minidom
dom1=xml.dom.minidom.parse(‘book.xml‘)

  

(2)获取根字节

root=dom1.documentElement #这里得到的是根节点 
print root.nodeName,‘,‘,root.nodeValue,‘,‘,root.nodeType

返回结果为:

info , None , 1

其中:

info是指根节点的名称root.nodeName

None是指根节点的值root.nodeValue

1是指根节点的类型root.nodeType,更多节点类型如下表:


NodeType


Named Constant


1


ELEMENT_NODE


2


ATTRIBUTE_NODE


3


TEXT_NODE


4


CDATA_SECTION_NODE


5


ENTITY_REFERENCE_NODE


6


ENTITY_NODE


7


PROCESSING_INSTRUCTION_NODE


8


COMMENT_NODE


9


DOCUMENT_NODE


10


DOCUMENT_TYPE_NODE


11


DOCUMENT_FRAGMENT_NODE


12


NOTATION_NODE

(3)子元素、子节点的访问

A、返回root子节点列表

import xml.dom.minidom
dom1=xml.dom.minidom.parse(‘book.xml‘)
root=dom1.documentElement
#print root.nodeName,‘,‘,root.nodeValue,‘,‘,root.nodeType
print root.childNodes

  

运行结果为:

[<DOM Text node "u‘\n   ‘">, <DOM Element: intro at 0x124ef58>, <DOM Text node "u‘\n    ‘">, <DOM Element: list at 0x1254058>, <DOM Text node "u‘\n\n    ‘">, <DOM Element: list at 0x1254418>, <DOM Text node "u‘\n\n‘">]

B、获取XML节点值,如返回根节点下第二个子节点intro的值和名字,添加下面一句

print root.childNodes[1].nodeName,root.childNodes[1].nodeValue

  

运行结果为:

intro None

C、访问第一个节点

print root.firstChild.nodeName

 

运行结果为:

#text

D、获取已经知道的元素名字的值,如要获取intro后的book message可以使用下面的方法:

import xml.dom.minidom
dom1=xml.dom.minidom.parse(‘book.xml‘)
root=dom1.documentElement
#print root.nodeName,‘,‘,root.nodeValue,‘,‘,root.nodeType
node= root.getElementsByTagName(‘intro‘)[0]
for node in node.childNodes:
    if node.nodeType in (node.TEXT_NODE,node.CDATA_SECTION_NODE):
        print node.data

  

这种方法的不足之处是需要对类型进行判断,使用起来不是很方便。运行结果是:

Book message

二、XML解析

对上面的xml进行解析

方法1 代码如下:

#@小五义 http://www.cnblogs.com/xiaowuyi
#xml 解析

import xml.dom.minidom
dom1=xml.dom.minidom.parse(‘book.xml‘)
root=dom1.documentElement
book={}
booknode=root.getElementsByTagName(‘list‘)
for booklist in booknode:
    print ‘=‘*20
    print ‘id:‘+booklist.getAttribute(‘id‘)
    for nodelist in  booklist.childNodes:
        if nodelist.nodeType ==1:
            print nodelist.nodeName+‘:‘,
        for node in nodelist.childNodes:
            print node.data

  

运行结果为:

==================== 
id:001 
head: bookone 
name: python check 
number: 001 
page: 200 
==================== 
id:002 
head: booktwo 
name: python learn 
number: 002 
page: 300

方法二:

代码:

#@小五义 http://www.cnblogs.com/xiaowuyi
#xml 解析 

import xml.dom.minidom
dom1=xml.dom.minidom.parse(‘book.xml‘)
root=dom1.documentElement
book={}
booknode=root.getElementsByTagName(‘list‘)
for booklist in booknode:
    print ‘=‘*20
    print ‘id:‘+booklist.getAttribute(‘id‘)
    print ‘head:‘+booklist.getElementsByTagName(‘head‘)[0].childNodes[0].nodeValue.strip()
    print ‘name:‘+booklist.getElementsByTagName(‘name‘)[0].childNodes[0].nodeValue.strip()
    print ‘number:‘+booklist.getElementsByTagName(‘number‘)[0].childNodes[0].nodeValue.strip()
    print ‘page:‘+booklist.getElementsByTagName(‘page‘)[0].childNodes[0].nodeValue.strip()

  

运行结果与方法一一样。比较上面的两个方法,方法一根据xml的树结构进行了多次循环,可读性上不及方法二,方法直接对每一个节点进行操作,更加清晰。为了更加方法程序的调用,可以使用一个list加一个字典进行存储,具体见方法3:

#@小五义 http://www.cnblogs.com/xiaowuyi
#xml 解析
import xml.dom.minidom
dom1=xml.dom.minidom.parse(‘book.xml‘)
root=dom1.documentElement
book=[]
booknode=root.getElementsByTagName(‘list‘)
for booklist in booknode:
    bookdict={}
    bookdict[‘id‘]=booklist.getAttribute(‘id‘)
    bookdict[‘head‘]=booklist.getElementsByTagName(‘head‘)[0].childNodes[0].nodeValue.strip()
    bookdict[‘name‘]=booklist.getElementsByTagName(‘name‘)[0].childNodes[0].nodeValue.strip()
    bookdict[‘number‘]=booklist.getElementsByTagName(‘number‘)[0].childNodes[0].nodeValue.strip()
    bookdict[‘page‘]=booklist.getElementsByTagName(‘page‘)[0].childNodes[0].nodeValue.strip()
    book.append(bookdict)
print book

  

运行结果为:

[{‘head‘: u‘bookone‘, ‘page‘: u‘200‘, ‘number‘: u‘001‘, ‘id‘: u‘001‘, ‘name‘: u‘python check‘}, {‘head‘: u‘booktwo‘, ‘page‘: u‘300‘, ‘number‘: u‘002‘, ‘id‘: u‘002‘, ‘name‘: u‘python learn‘}]

该列表里包含了两个字典。

三、建立XML文件

这里用方法三得到的结果,建立一个xml文件。

# -*- coding: cp936 -*-
#@小五义 http://www.cnblogs.com/xiaowuyi
#xml 创建 

import xml.dom
def create_element(doc,tag,attr):
    #创建一个元素节点
    elementNode=doc.createElement(tag)
    #创建一个文本节点
    textNode=doc.createTextNode(attr)
    #将文本节点作为元素节点的子节点
    elementNode.appendChild(textNode)
    return elementNode

dom1=xml.dom.getDOMImplementation()#创建文档对象,文档对象用于创建各种节点。
doc=dom1.createDocument(None,"info",None)
top_element = doc.documentElement# 得到根节点
books=[{‘head‘: u‘bookone‘, ‘page‘: u‘200‘, ‘number‘: u‘001‘, ‘id‘: u‘001‘, ‘name‘: u‘python check‘}, {‘head‘: u‘booktwo‘, ‘page‘: u‘300‘, ‘number‘: u‘002‘, ‘id‘: u‘002‘, ‘name‘: u‘python learn‘}]
for book in books:
    sNode=doc.createElement(‘list‘)
    sNode.setAttribute(‘id‘,str(book[‘id‘]))
    headNode=create_element(doc,‘head‘,book[‘head‘])
    nameNode=create_element(doc,‘name‘,book[‘name‘])
    numberNode=create_element(doc,‘number‘,book[‘number‘])
    pageNode=create_element(doc,‘page‘,book[‘page‘])
    sNode.appendChild(headNode)
    sNode.appendChild(nameNode)
    sNode.appendChild(pageNode)
    top_element.appendChild(sNode)# 将遍历的节点添加到根节点下
xmlfile=open(‘bookdate.xml‘,‘w‘)
doc.writexml(xmlfile,addindent=‘ ‘*4, newl=‘\n‘, encoding=‘utf-8‘)
xmlfile.close()

  

运行后生成bookdate.xml文件,该文件与book.xml一样。

xml.etree.ElementTree篇

依然使用例1的例子,对xml进行解析分析。

1、加载XML

方法一:直接加载文件

import xml.etree.ElementTree
root=xml.etree.ElementTree.parse(‘book.xml‘)

  

方法二:加载指定字符串

import xml.etree.ElementTree
root = xml.etree.ElementTree.fromstring(xmltext)

  

这里xmltext是指定的字符串。

2、获取节点

方法一 利用getiterator方法得到指定节点

book_node=root.getiterator("list")

 

方法二 利用getchildren方法得到子节点,如例1中,要得到list下面子节点head的值:

#@小五义 http://www.cnblogs.com/xiaowuyi
import xml.etree.ElementTree
root=xml.etree.ElementTree.parse(‘book.xml‘)
book_node=root.getiterator("list")
for node in book_node:
    book_node_child=node.getchildren()[0]
    print book_node_child.tag+‘:‘+book_node_child.text

  

运行结果为:

head:bookone 
head:booktwo

方法三 使用find和findall方法

find方法找到指定的第一个节点:

# -*- coding: cp936 -*-
#@小五义 http://www.cnblogs.com/xiaowuyi
import xml.etree.ElementTree
root=xml.etree.ElementTree.parse(‘book.xml‘)
book_find=root.find(‘list‘)
for note in book_find:
    print note.tag+‘:‘+note.text

  

运行结果:

head:bookone 
name:python check 
number:001 
page:200

findall方法将找到指定的所有节点:

# -*- coding: cp936 -*-
#@小五义 http://www.cnblogs.com/xiaowuyi
import xml.etree.ElementTree
root=xml.etree.ElementTree.parse(‘book.xml‘)
book=root.findall(‘list‘)
for book_list in book:
    for note in book_list:
        print note.tag+‘:‘+note.text

  

运行结果:

head:bookone 
name:python check 
number:001 
page:200 
head:booktwo 
name:python learn 
number:002 
page:300

3、对book.xml进行解析的实例

# -*- coding: cp936 -*-
#@小五义 http://www.cnblogs.com/xiaowuyi
import xml.etree.ElementTree
root=xml.etree.ElementTree.parse(‘book.xml‘)
book=root.findall(‘list‘)
for book_list in book:
    print ‘=‘*20
    if  book_list.attrib.has_key(‘id‘):
        print "id:"+book_list.attrib[‘id‘]
    for note in book_list:
        print note.tag+‘:‘+note.text
print ‘=‘*20

  

运行结果为:

==================== 
id:001 
head:bookone 
name:python check 
number:001 
page:200 
==================== 
id:002 
head:booktwo 
name:python learn 
number:002 
page:300 
====================

注意:

当要获取属性值时,如list id=’001’,用attrib方法。

当要获取节点值时,如<head>bookone</head>中的bookone用text方法。

当要获取节点名时,用tag方法。


 

》》》》》http://www.cnblogs.com/xiaowuyi/archive/2012/10/17/2727912.html

时间: 2024-10-19 06:56:53

【转】XML生成与解析(DOM、ElementTree)的相关文章

iOS中的数据解析(XML,JSON),SAX解析,DOM解析

第三方 SAT解析 #import "SAXTableViewController.h" #import "Student.h" @interface SAXTableViewController ()<NSXMLParserDelegate> @property (nonatomic, retain) NSMutableArray *dataSourse; // 存储学生对象 @property (nonatomic, retain) Student

关于XML文档解析(DOM和SAX)

DOM解析方式是将整个XML文档以document形式构架在内存中,当XML文档很大时,可能会造成OOM(内存溢出).而SAX则是一行行的去解析的,速度很快. DOM解析: 1,通过DocumentBuilderFactory创建DOM解析工厂; 2,由工厂获取DocumentBuilder解析器对象; 3,通过解析器将XML转换成Document对象 注:在对XML文档进行修改后,需要利用TransFormerFactory对其进行更新. SAX解析: 1,通过SAXParserFactory

XML 解析---dom解析和sax解析

目前XML解析的方法主要用两种: 1.dom解析:(Document Object Model,即文档对象模型)是W3C组织推荐的解析XML的一种方式. 使用dom解析XML文档,该解析器会先把XML文档加载到内存中,生成该XML文档对应的document对象,然后把XML文档中的各个标签元素变成相应的Element对象,文本会变成Text对象,属性会变成Attribute对象,并按这些标签.文本.属性在XML文档中的关系保存这些对象的关系. 缺点:消耗内存,所以使用dom解析XML文档时不能解

Android笔记(四十五) Android中的数据存储——XML(一)DOM解析器

DOM解析XML在j2ee开发中比较常见,在Dom解析的过程中,是先把dom全部文件读入到内存中,然后使用dom的api遍历所有数据,检索想要的数据,这种方式显然是一种比较消耗内存的方式,对于像手机这样的移动设备来讲,内存是非常有限的,所以对于比较大的XML文件,不推荐使用这种方式,但是Dom也有它的优点,它比较直观,在xml文档比较小的情况下也可以考虑使用dom方式. 代码演示: MainActivity.java package cn.lixyz.xmltest.activity; impo

四种生成和解析XML文档的方法详解(介绍+优缺点比较+示例)

四种生成和解析XML文档的方法详解(介绍+优缺点比较+示例) 众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 下面首先给出这四种方法的jar包下载地址 DOM:在现在的Java JDK里都自带了,在xml-apis.jar包里 SAX:http://sourceforge.net/projects/sax/ JDOM:http://jdom.org/downloads/index.html DOM4J:http://sourceforge.

用SAX和PULL进行XML文件的解析与生成

XML解析有传统的dom方法还有Jsoup,SAX,PULL等,这里讲的是比较省内存的SAX和PULL方法.Android中极力推荐用PULL的方式来解析,我个人觉得pull确实比较简单,但其内部的逻辑性不是很分明.所以今天做了个类来将其中的多个步骤进行了分割,以后直接拿来用即可. 1.SAX: 首先先讲解SAX中各个方法的作用: 我们以这个不规则的xml语句做例子: <abc:kale sex=m age=21>jack</abc:kale> startDocument:开始解析

Java学习总结(21)——XML文档解析:DOM解析,SAX解析

一.XML简介1.可扩展性标记语言(eXtensible Markup Language)2.XML用于描述数据3.应用场合:(1)持久化存储数据(2)数据交换(3)数据配置4.XML语法(1)文档类型:在编写XML文档时,需要先使用文档声明,声明XML文档的类型.最简单的声明语法:<?Xml version="1.0" ?>用encoding属性说明文档的字符编码:<?Xml version="1.0" encoding="GB2312

Java:简单的解析XML文件之使用DOM解析

XML简介 要理解XML,HTML等格式,先来理解文档对象模型DOM 根据 DOM,HTML 文档中的每个成分都是一个节点,这些节点组成了一棵树.DOM 是这样规定的:整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 节点彼此都有等级关系.HTML 文档中的所有节点组成了一个文档树(或节点树).HTML 文档中的每个元素.属性.文本等都代表着树中的一个节点.树起始于文档节点,并由此继续伸出枝条,直

java Document生成和解析xml

转自:https://blog.csdn.net/p812438109/article/details/81807440 Document场景:需要知道文档所有结构 需要把文档一些元素排序 文档中的信息被多次使用的情况 优势:由于Document是java中自带的解析器,兼容性强 缺点:由于Document是一次性加载文档信息,如果文档太大,不太适用 Document操作步骤第一步:初始化xml解析工厂 DocumentBuilderFactory factory = DocumentBuild