Python 爬虫开发之xpath使用

在进行爬虫开发中，需要的页面信息进行解析处理，获取到需要的关键数据。可以利用xpath进行对页面的xml文件进行解析处理，获取到需要的关键数据。
XPath使用:
XPath 可用来在 XML 文档中对元素和属性进行遍历.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header(‘User-Agent‘, ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘)
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是补全缺失的html标签
html_data = result.xpath(‘/html/body/div/ul/li/a/text()‘) 获取某个标签的数据，返回的是对象，可以通过遍历得到具体的数据
html_data = html.xpath(‘/html/body/div/ul/li/a/@href‘) 获取某个标签的属性 获取属性值用@
html_data = html.xpath(‘/html/body/div/ul/li/a[@href="link2.html"]/text()‘) 获取a表现属性为link2.html的内容
html_data = html.xpath(‘//li/a/text()‘) 使用相对路径获取a标签的内容
html_data = html.xpath(‘//li/a//@href‘) 使用相对路径获取a标签的属性值

原文地址：http://blog.51cto.com/weadyweady/2306595

时间： 2024-10-11 17:05:31

Python 爬虫开发之xpath使用的相关文章

python爬虫开发之urllib模块详细使用方法与实例全解

爬虫所需要的功能,基本上在urllib中都能找到,学习这个标准库,可以更加深入的理解后面更加便利的requests库. 首先在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import urllib.request,urllib.error 在Pytho2.x中使用import urllib——-对应的,在Python3.x中会使用import urllib.request,urllib.error,urllib.parse 在Pytho2.x中使

Python爬虫系列之 xpath：html解析神器

通过前面的文章,我们已经知道了如何获取网页和下载文件,但是前面我们获取的网页都是未经处理的,冗余的信息太多,无法进行分析和利用这一节我们就来学习怎么从网页中筛选自己需要的信息,顺便给大家推荐一个资源很全的python学习免非解答.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,这里有资深程序员分享以前学习心得,学习笔记,还有一线企业的工作经验,且给大家精心整理一份python零基础到项目实战的资料,每天给大家讲解python最新的技术,前景,学习需要留言的小细节说到信息筛选我们立马就

python自动开发之(ajax)第二十天

1.Django请求的生命周期路由系统 -> 试图函数(获取模板+数据=>渲染) -> 字符串返回给用户 2.路由系统 /index/ -> 函数或类.as_view() /detail/(\d+) -> 函数(参数) 或类.as_view()(参数) /detail/(?P<nid>\d+) -> 函数(参数) 或类.as_view()(参数) /detail/ -> include("app01.urls") /detai

Python gui开发之tkinter

tk inter 第一个窗口 from Tkinter import *Tk().mainloop() 当前线程调用mainloop()后变进入事件循环,后面代码被阻塞. 想创建多个窗口的话 from Tkinter import * from threading import * for i in range(5): Thread(target=Tk().mainloop).start() print 2333 sys.stdout.flush() #2333 创建按钮 relXX属性代表与

python web开发之flask框架学习(2) 加载模版

上次学习了flask的helloword项目的创建,这次来学习flask项目的模版加载: 第一步:创建一个flask项目第二步:在项目目录的templates文件夹下创建一个html文件第三步: 加载模版文件这里会用到flask包下的一个模版渲染器render_template因此要倒入这个render_template 第四步:运行项目就可以看到模版加载的效果了以上就是flask框架的模版加载学习了,有什么问题欢迎留言! 简书地址: Code人生原文地址:https://www.cnb

Python Web开发之路

Flask相关 1.DBUtils数据库连接池 2.Flask之初体验原文地址:https://www.cnblogs.com/buyisan/p/8532918.html

监控开发之用python扩展dstat插件自定义实时监控

dstat是一个python开源的实时监控工具,一般是用来做系统性能监控的.咱们这里只是提他的自定义插件开发,用来打造自己的dstat. 有朋友可能还没清楚是啥意思, 咱们查看系统的状体状态有人喜欢用vmstat,也有人喜欢用dstat.相比来说dstat的功能模块更全一点是,这里还只是说查看系统性能方面的 ! 如果想一边查看,系统的各方面性能指标,还想看你应用的一些个负载相关,比如某个程序的负载,mongodb的锁lock百分比,mysql连接数... 懂了吧 ! 下面是dstat的插

python爬虫xpath的语法

python爬虫xpath的语法有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历. XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上. 因此,对 XPath 的理解是很多高级 XML 应用的基础. 这个是w3c上关于xpath的介绍,可以看出xp

Python爬虫利器三之Xpath语法与lxml库的用法

前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath. 参考文档: lxml python 官方文档 XPath语法参考 w3school 安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在

猜你喜欢

随想6

有些同学认为用户界面设计是充满创意和非常潇洒的工作,另一些同学(特别是有一定实际项目经验的)也会抱怨,"用户界面的工作就是打打补丁,让界面好看一些罢了." 其实,计算机软件的用户 ...

【APP设计利器】Sketch 41 Mac中文破解版(含汉化插件)

Sketch是一款拥有美观界面和强大功能适用于所有设计师的专业矢量绘图工具.它旨在为美术设计师创造出一款更优秀的作品,不是复制品,而是提升品.Sketch简约的设计是基于无限的规模和层次的绘图空间,免 ...

DAO模型

DAO模型前面我们在使用JDBC时解决的都是一些很简单的问题,例如登录,注册等等,所以有些例直接把代码写在了main方法中.这种写法很容易出现代码臃肿,耦合度高,不能模块化开发等诸多弊端,特别是将来 ...

PHP5中public, private, protected 三种类属性的区别

初学PHP,看到别人的封装的类中有这三个属性,于是查找了相关资料总结了三者的区别如下: 在子类中可以通过self::var 或self::method 来调用 ,可以通过parent::metho ...

ASP.NET中IsPostBack详解

1.IsPostBack介绍Page.IsPostBack是一个标志:当前请求是否第一次打开. 调用方法为:Page.IsPostBack或者IsPostBack或者this.IsPostBack或者 ...

Azure运维系列 3：善用Azure捕获功能事半功倍

在使用虚拟机的过程中,肯定会使用到虚拟机模板,从而简化我们的日常操作.如果没有虚拟机模板可能需要花费很多的时间来创建多个相同环境的虚拟机,所以在使用Azure的时候我们会发现Azure本身已经有不少的 ...

linux 非阻塞 connect函数

开发测试环境:虚拟机CentOS,windows网络调试助手非阻塞模式有3种用途 1.三次握手同时做其他的处理.connect要花一个往返时间完成,从几毫秒的局域网到几百 ...

事件的分发机制(View篇因此事件传递的顺序是先经过onTouch，再传递到onClick)

参考声明:感谢郭霖http://blog.csdn.net/guolin_blog/article/details/9097463和张鸿洋http://blog.csdn.net/lmj6235657 ...

编程范式：响应式编程

响应式编程是一种面向数据流和变化传播的编程范式.这意味着可以在编程语言中很方便地表达静态或动态的数据流,而相关的计算模型会自动将变化的值通过数据流进行传播. 例如,在命令式编程环境中,a:=b+c表示 ...

Eclipse中建立自己的类库,给不同的工程使用

在多个工程当中,可能使用到相同的jar包,这时,如果我们建立一个自己的类库,该类库中存放着所有工程均需要的jar包,就可以免去重复导入的麻烦.来看一下操作的主要步骤与过程. Eclipse---> ...

计算机原理简略总结(二)++中断

在说虚拟地址物理地址之前我们先说下中断上一章我们说了硬件可以通过控制总线给cpu传送一个中断信号,这个有非凡的意义.我们知道cpu的读写速度与硬件的读写速度不是一个数量级别的,比如我们让硬盘去读个文 ...

汽车 ETK 电子目录数据提取

对电子目录的数据库有些研究,有兴趣可以交流. BelayTech QQ:1933829402

resharper卸载后，vs2013不能正常显示智能提示

刚到公司的公司,需要装上Resharp进行开发, 公司的项目比较大,装上Resharp后,发现特别卡. 卸载后,vs2013的只能提示又没有了. 说重新装Resharp的,我鄙视你. 解决方法 ...

java多线程创建方法

1.继承Thread类 2.实现Runnable接口 3.两种实现方法之间的关系 4.实例 sleep是属于Thread类的静态函数. /** * aThread.java * @author cjc ...

实习就要结束了,收获之一就是学会了使用Perforce! Perforce SCM System是一款构建于可伸缩客户/服务器结构之上的软件配置管理工具.仅仅应用 TCP/IP,开发人员就能够通过多种 ...

一些常用正则

匹配域名:(这个还不是很好,有空查看一下以前孙凯写的) $urlRule = "/(http|https):\/\/[0-9a-z\/\-]+[0-9a-z\.\/\-\?\=]+[0-9a ...

Linux Directory Structure

Note: Files are grouped according to purpose. Ex: commands, data files, documentation. Parts of a Un ...

centos6.4下yum报错实例

说明:以下所有操作均是由超级管理员完成我一个朋友遇到这个问题,就是利用yum安装的时候报错.如图: 当时他问我的时候,我一开始以为是Python版本不兼容问题,可能是Python升级后带来的问题,所 ...

MRDS学习三——机械车的改良（Activity的介绍）

Activity:VPL中化繁为简的工具,可以使得真个VPL容易让人看懂,也能跟好的控制.它就很像把一堆比较复杂但相关的流程组合成一个自定义的Activity. 完成Activity的定义: 第一步: ...

Kali 2016 的更新源

deb http://http.kali.org/kali kali-rolling main non-free contrib deb-src http://http.kali.org/kali k ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.