6-3 如何解析简单的XML文档

元素节点、元素树

>>> from xml.etree.ElementTree import parse

>>> help(parse)
Help on function parse in module xml.etree.ElementTree:

parse(source, parser=None)

help(parse)

>>> f  = open(r‘C:\视频\python高效实践技巧笔记\6数据编码与处理相关话题\linker_log.xml‘)
>>>
>>> et = parse(f)    #et  ElementTree的对象

>>> help(et.getroot)
Help on method getroot in module xml.etree.ElementTree:

getroot(self) method of xml.etree.ElementTree.ElementTree instance

help(et.getroot)

>>> root = et.getroot() #获取根节点 是一个元素对象

>>> root
<Element ‘DOCUMENT‘ at 0x2e87f90>

#此节点的属性

>>> root.tag               #查看标签
‘DOCUMENT‘

>>> root.attrib               #查看属性,是一个字典,本例中有值,无值时为空
{‘gen_time‘: ‘Fri Dec 01 16:04:26 2017 ‘}

>>> root.text                #查看节点文本,是一个回车无自符串
‘\n‘
>>> root.text.strip()        #将节点文本对 空白字符串过滤
‘‘

>>> root.text.strip()

 ‘‘

#root自身是一个可迭代对象,直接进行迭代遍历子元素

>>> for child in root:
    print(child.get(‘id‘))  #child表示子元素 get()方法是获取某一属性。

输出结果

01ABBC90

01BF8610

01BF8AF0

01BFC5F0

01BFE3E8

01BFE850

01BFEAC8

01BFF128

01BFF2B0

01BFF4B8

01BFF730

01BFF960

01BFFB68

#通过find()、findall()、iterfind()只能找当前元素的直接子元素如本例中”root”只能找”MSG”而不能找”TEXT”

>>> root.find(‘MSG‘)       #find()找到第一个碰到的元素
<Element ‘MSG‘ at 0x2e87fd0>
>>> root.find(‘MSG‘)
<Element ‘MSG‘ at 0x2e87fd0>
>>> root.findall(‘MSG‘)    #find()找到所有的元素
[<Element ‘MSG‘ at 0x2e87fd0>, <Element ‘MSG‘ at 0x2e9f0d0>, <Element ‘MSG‘ at 0x2e9f170>, <Element ‘MSG‘ at 0x2e9f210>, <Element ‘MSG‘ at 0x2e9f2b0>, <Element ‘MSG‘ at 0x2e9f350>, <Element ‘MSG‘ at 0x2e9f3f0>, <Element ‘MSG‘ at 0x2e9f490>, <Element ‘MSG‘ at 0x2e9f530>, <Element ‘MSG‘ at 0x2e9f5d0>, 

>>> root.find(‘TEXT‘)      #“TEXT”是”MSG”的子元素,所以root直接find()找不到
>>>
>>> msg = root.find(‘MSG‘)
>>> msg.find(‘TEXT‘)
<Element ‘TEXT‘ at 0x2e9f090>

#iterfind()  生成可迭代对表
>>> iterMsg = root.iterfind(‘MSG‘)
>>> for i in xrange(5):
    x = iterMsg.next()
    print x.get(‘id‘)

输出

01BF8610

01BF8AF0

01BFC5F0

01BFE3E8

01BFE850

>>> iterMsg = root.iterfind(‘MSG‘)
>>> i = 0
>>> for x in iterMsg:
    print(x.get(‘id‘))
    i+=1
    if(i ==5):
        break

输出结果:

01ABBC90

01BF8610

01BF8AF0

01BFC5F0

01BFE3E8

#iter()可以迭代出所有元素的节点

>>> root.iter()
<generator object iter at 0x02ED3CD8>

#递归查找某一元素

>>> list(root.iter(‘TEXT‘))

三、查找高级用法

1、“*”查找所有的节点

>>> root.findall(‘MSG/*‘)   #查找MSG下的所有子节点,注意只能找其子节点而不能找其孙子节点

2、“.//”无论哪个层次下都能找到节点

>>> root.find(‘.//TEXT‘)        #能找到
<Element ‘TEXT‘ at 0x2e9f090>
>>> root.find(‘TEXT‘)        #不能找到
>>> 

3、“..”找到父层次的节点

>>> root.find(‘.//TEXT/..‘)
<Element ‘MSG‘ at 0x2e87fd0>

4、“@”包含某一属性

>>> root.find(‘MSG[@name]‘)          #没有包含name属性的
>>> root.find(‘MSG[@Type]‘)          #没有包含Type属性的
>>> root.find(‘MSG[@type]‘)          #存在包含type属性的,并返回
<Element ‘MSG‘ at 0x2e87fd0>

5、属性等于特定值

>>> root.find(‘MSG[@id="01BFE3E8"]‘)   #注意参数里的=号后面的字符串需要带引号
<Element ‘MSG‘ at 0x2e9f2b0>

6、指定序号

>>> root.find("MSG[2]")      #找第二个
<Element ‘MSG‘ at 0x2e9f0d0>

>>> root.find("MSG[last()]")  #找最后一个
<Element ‘MSG‘ at 0x2ecdef0>

>>> root.find("MSG[last()-1]")  #找倒数第二个
<Element ‘MSG‘ at 0x2ecde30>

原文地址:https://www.cnblogs.com/smulngy/p/8966738.html

时间: 2024-08-29 23:33:14

6-3 如何解析简单的XML文档的相关文章

Dom4j解析语音数据XML文档(注意ArrayList多次添加对象,会导致覆盖之前的对象)

今天做的一个用dom4j解析声音文本的xml文档时,我用ArrayList来存储每一个Item的信息,要注意ArrayList多次添加对象,会导致覆盖之前的对象:解决方案是在最后将对象添加入ArrayLis时先new 一个对象,然后将之前那个对象的属性set到新的对象中,之后在加入到 ArrayList,就不会出错了. package parseXML; import org.dom4j.Attribute;import org.dom4j.Document;import org.dom4j.E

dom4j解析和生成XML文档

解析XML的两种方法 package cnslp.dom4j.com; import java.io.File; import java.util.Iterator; import org.dom4j.Attribute; import org.dom4j.Document; import org.dom4j.Element; import org.dom4j.io.SAXReader; /**  * Created by cnslp on 2017/5/12 0012.  * 解析XML文档的

当xml中存在命名空间,dom4j解析以及写入xml文档时的乱码问题

最近公司项目开发中需要通过前台用户界面进行客户业务系统的部署(提供界面化操作,减少运维工作的难度),通过修改web.xml进行设置各个项目不同的信息配置. 开发过程中遇到2种问题,同时将解决方案备注上,以方便日后查看. 问题一:当xml中存在命名空间,三种处理办法(dom4j) 问题二:文件保存之后总是提示中文乱码问题 针对上面2个问题的解决方案进行汇总,解决方法主要还是来自于其他网络同行的博客. 第一个 问题主要参照 博客http://blog.sina.com.cn/s/blog_5cef6

MVC模式简单的Xml文档解析加Vue渲染

前端代码: <script src="~/Js/jquery-3.3.1.min.js"></script> <script src="~/Js/vue.js"></script></head><body> <div> <div id="vue_det"> <ul v-for="mess in message"> <

解析简单xml文档

一.解析简单的xml文档 使用xml.etree.ElementTree 下的parse() xmlName.xml的文档的内容如下: <?xml version="1.0"?> <data> <country name="zhongguo"> <rank updated="yes">2</rank> <year >2017</year> <gdppc>

Java对XML文档的解析

1. DOM解析 DOM的全称是Document Object Model,也即文档对象模型.DOM解析会将XML文档以对象树的方式存入内存,因此,DOM解析内存消耗巨大.当然由于DOM解析将XML以节点树的方式调入内存,所以对文档进行增删改查(crud)比较方便.DOM分析器把整个XML文档转化成DOM树放在了内存中,因此,当文档比较大或者结构比较复杂时,对内存的需求就比较高.而且,对于结构复杂的树的遍历也是一项耗时的操作.所以,DOM分析器对机器性能的要求比较高,实现效率不十分理想. ---

四种生成和解析XML文档的方法详解

众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 一.介绍及优缺点分析 1. DOM(Document Object Model) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准.DOM是以层次结构组织的节点或信息片断的集合.这个层次结构允许开发人员在树中寻找特定信息.分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作.由于它是基于信息层次的,因而DOM被认为是基于树或基于对象的. [优点]      ①允许应用

浅谈用java解析xml文档(一)

关于xml本身的语法及使用的环境不多说了,网上有很多规则, 然对xml文档进行解析,一般分为四种解析方式,基于java官方文档的Dom 和Sax解析,还有就是基于 第三方jar包的 Jdom 和 Dom4j解析. 一.首先我们来看Dom解析: 1.定义工厂,使应用程序能够从 XML 文档获取生成 DOM 对象树的解析器. DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); 在应用程序获取对 DocumentBuil

艺多不压身 -- 四种生成和解析XML文档的方法详解

众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J DOM:在现在的Java JDK里都自带了,在xml-apis.jar包里 SAX: JDOM: DOM4J: 一.介绍及优缺点分析 1. DOM(Document Object Model) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准.DOM是以层次结构组织的节点或信息片断的集合.这个层次结构允许开发人员在树中寻找特定信息.分析该结构通常需要加载整个文档和构造层次结构,然