python使用ElementTree解析XML文件

一、将XML网页保存到本地

要加载XML文件首先应该将网页上的信息提取出来，保存为本地XML文件。抓取网页信息可以python的urllib模块。

代码如下：

from urllib import urlopen
url = "http://********/**"
resp = urlopen(url).read()
f = open(‘文件保存路径‘, ‘w‘)
f.write(resp)
f.close()

二、解析XML文件

python有许多可以用来解析XML文件的函数，在这里介绍ElementTree（简称ET）.它提供轻量级的python式API。实现逻辑简单，解析效率高。利用ET解析XML文件的方法是：先找出父级标签，然后再一级一级循环找出所需要的子标签，代码如下：

import xml.etree.cElementTree as ET
tree = ET.parse("***.xml")  #加载xml文件
root = tree.getroot()  #得到第二级标签
for child_of_root in root[1]:#root[1]为第二级标签中的第二个子标签
    for child1 in child_of_root[7]: #原理同上
        for child2 in child1:
            print child2.tag, child2.attrib, child2.text
    for child3 in child_of_root[8]:
        for child4 in child3:
            print child4.tag, child4.attrib, child4.text

在上述代码中，child_of_root[7]表示在该级标签中的第八个子标签，在for child2 in child1中是遍历child1的所有子标签，打印出子标签的名称、属性、文本。这样就可以将XML文件解析完成，得到我们所想要的信息。

原文地址：https://www.cnblogs.com/l5623064/p/8574624.html

时间： 2024-10-04 18:33:39

python使用ElementTree解析XML文件的相关文章

Python中用ElementTree解析XML

[XML基本概念介绍] XML 指可扩展标记语言(eXtensible Markup Language). XML 被设计用来传输和存储数据. 概念一: <foo> # foo元素的起始标签 </foo> # foo元素的结束标签 # note: 每一个起始标签必须有对应的结束标签来闭合, 也可以写成<foo/> 概念二: <foo> # 元素可以嵌套到任意参次 <bar></bar> # bar元素为foo元素的子元素 </f

Python使用ElementTree处理xml文件

在Python中一般情况我们应该使用ElementTree处理xml文件,ElementTree从Python 2.5开始成为标准模块.一般情况指的是: XML 文件大小适中,对性能要求并非非常严格. 下面讲解如何通过ElementTree来操作XML: 1.引入库需要用到3个类,ElementTree,Element以及建立子类的包装类SubElement try: import xml.etree.cElementTree as ET except ImportError: import

python xml.etree.ElementTree解析xml文件获取节点

<?xml version = "1.0" encoding = "utf-8"?> <root> <body name="lyc"> <age>110</age> </body> <body name = "l" age = "10"> </body> </root> ###############

Python使用ElementTree解析XML【译】

19.7. xml.etree.ElementTree — The ElementTree XML API 源代码: Lib/xml/etree/ElementTree.py Element类型是一种灵活的容器对象,用于在内存中存储层次数据结构.可以说是list和dictionary的交叉. 注意: xml.etree.ElementTree 模块对含有恶意代码的数据是不安全的.如果你想处理不信任的数据请使用 XML vulnerabilities. 每个element都有一系列相关属性: 标签

python 使用ElementTree解析xml

以country.xml为例,内容如下: <?xml version="1.0"?> <data> <country name="Liechtenstein"> <rank updated="yes">2</rank> <year>2008</year> <gdppc>141100</gdppc> <neighbor name=&qu

Python解析XML文件

python对XML的解析常见的XML编程接口有DOM和SAX,这两种接口处理XML文件的方式不同,当然使用场合也不同. python有三种方法解析XML,SAX,DOM,以及ElementTree: 1.SAX (simple API for XML ) pyhton 标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件. 2.DOM(Document Object Model) 将XML数据在内存中解析成一个树,通过

python 解析XML文件

比较高效的python 解析XML文件参考 http://codingpy.com/article/parsing-xml-using-python/ try: import xml.etree.cElementTree as ET except ImportError: import xml.etree.ElementTree as ET import time def parse_poi_by_elementTree(filepath): t0 = time.time() tree = E

python解析xml文件操作的例子

python解析xml文件操作实例,操作XML文件的常见技巧. xml文件内容: <?xml version="1.0" ?>  <book> <title> sample xml thing </title> <author> <name> <first> ma </first> <last>

ElementTree 解析xml（minidom解析xml大文件时，MemoryError）

在使用minido解析xml文件时,因为文件过大,结果报错MemoryError.查询后得知是因为minidom在解析时是将所有文件放到内存里的,很占用内存,所以要考虑换一种方法来处理xml文件. ElementTree相比minidom消耗内存更小,下面是ElementTree的一些简单用法 XML源文件中的部分内容: #导入ElementTree from xml.etree import ElementTree #读入并解析XML文件,读入的是树形结构 doc = ET.parse(XML

猜你喜欢

Caused by: java.lang.ClassNotFoundException: org.apache.shiro.spring.LifecycleBeanPostProcessor

1.错误描述 Caused by: java.lang.ClassNotFoundException: org.apache.shiro.spring.LifecycleBeanPostProcess ...

SharePoint 如何制作自动跳转页面

SharePoint 如何制作自动跳转页面 SharePoint制作自动跳转的页面非常简单,只要在页面上添加一个Web部件--内容编辑器,加入相应的js代码即可. 本文介绍如何制作自动跳转页面. 1. ...

attr-img-src

https://dev.w3.org/html5/spec-preview/the-img-element.html#attr-img-src The src attribute must be pr ...

[转] C#反射设置属性值和获取属性值

/// /// 获取类中的属性值 /// /// /// /// public string GetModelValue(string FieldName, object obj) { try { T ...

http_load使用详解

1.什么是http_loadhttp_load是一款基于Linux平台的web服务器性能测试工具,用于测试web服务器的吞吐量与负载,web页面的性能. 2.http_load的安装1)下载地址wge ...

ubuntu16.04下opencv安装笔记和例程

问题: 最近重装了系统,需要重新配置opencv2.4.13,配置完成后每次都出现cmake error,google了报错,尝试了各种方法,都未解决问题,于是重新git clone 了opencv2 ...

定时器相关 setTimeout setInterval

这个问题也是在参加百度的前端技术学院中遇到的任务中需要用js实现动画导师给的评价中setInterval会导致bug 当时不理解下面把自己学习的过程分享出来再次理解单线程老是说js ...

惭瓜咕爬姓喂昭憾椅翘瘸显再睾睦

http://www.ebay.com/cln/hnhfhjnlv-jvbvdvhbd/2014-11-29/137772570019 http://www.ebay.com/cln/blrldtrf ...

Linux服务器下Java环境搭建

前言: 在centOS下,像阿里云等都预先设置了jdk,不过不是SUN的java JDK,一般情况要重新装jdk,而且一般情况下自己装的Jdk相对来说易控制版本,稳定性更高.所以以下是我卸载预装jdk ...

以多个实例方式打开Notepad++

Right-click any Notepad++ shortcut. Select Properties. Move to the Shortcut tab. In the end of the T ...

python第二天作业

1:编写for循环,利用索引遍历出每一个字符msg='hello egon 666' 2:编写while循环,利用索引遍历出每一个字符msg='hello egon 666' 3:msg='hello ...

Cef功能开发经验总结

转载请说明原出处,谢谢~~:http://blog.csdn.net/zhuhongshu/article/details/70159672 这是我开发Cef功能时对踩过的坑,进行的总结,话说Cef坑 ...

Struts2错题总结

Struts总结 struts 2是一个MVC框架,以WebWork框架的设计思想为核心,吸收了Struts 1的部分优点Struts 2拥有更加广阔的前景,自身功能强大,还对其他框架下开发 ...

自适应布局备忘

1.两栏布局侧边栏宽度固定,主内容宽度自适应 <div class="layout"> <div class="layout_aside" ...

北亚案例：oracle数据库误删除数据的恢复方法

学习数据库时,我们只是以学习的态度,考虑如何使用数据库命令语句,并未想过工作中,如果误操作一下,都可能导致无可挽回的损失.当我在工作中真正遇到这些问题时,我开始寻找答案. 今天主要以oracle数据库 ...

在OpenSUSE虚拟机内安装 Virtualbox 驱动

如果你的 openSUSE 是在 Virtualbox 里装的,它会自动识别到你是装在 Virtualbox 环境的,因此会为您预装好 virtualbox-guest-kmp-desktop vir ...

PHP多种序列化/反序列化的方法 (转载)

1. serialize和unserialize函数这两个是序列化和反序列化PHP中数据的常用函数. <?php $a = array('a' => 'Apple' ,'b' => ...

HTTP 状态

HTTP 状态 1xx: 信息消息: 描述: 100 Continue 服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求. 101 Switching Proto ...

服务器数据恢复

服务器数据恢复服务器在现代商业中扮演着重要的角色,无论是网站服务器,财务服务器,邮件服务器,数据库服务器以及虚拟机服务器,我们的日常生活和商务活动都无法离开这些幕后英雄. 如果您的服务器没有一个有效 ...

Solr 4.0 部署实例教程

Solr 4.0 部署实例教程 Solr 4.0的入门基础教程,先说一点部署之后肯定会有人用solrj,solr 4.0好像添加了不少东西,其中CommonsHttpSolrServer这个类改名为H ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.