python爬虫基础04-网页解析库xpath

更简单高效的HTML数据提取-Xpath

本文地址：https://www.jianshu.com/p/90e4b83575e2

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

相比于BeautifulSoup，Xpath在提取数据时会更加的方便。

安装

在Python中很多库都有提供Xpath的功能，但是最基本的还是lxml这个库，效率最高。在之前BeautifulSoup章节中我们也介绍到了lxml是如何安装的。

pip install lxml

语法

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

我们将用以下的HTML文档来进行演示：

html_doc = ‘‘‘<html>?<head></head>?<body>    <bookstore>?        <book category="COOKING">            <title lang="en">Everyday Italian</title>            <author>Giada De Laurentiis</author>            <year>2005</year>            <price>30.00</price>        </book>?        <book category="CHILDREN">            <title lang="en">Harry Potter</title>            <author>J K. Rowling</author>            <year>2005</year>            <price>29.99</price>        </book>?        <book category="WEB">            <title lang="en">XQuery Kick Start</title>            <author>James McGovern</author>            <author>Per Bothner</author>            <author>Kurt Cagle</author>            <author>James Linn</author>            <author>Vaidyanathan Nagarajan</author>            <year>2003</year>            <price>49.99</price>        </book>?        <book category="WEB">            <title lang="en">Learning XML</title>            <author>Erik T. Ray</author>            <year>2003</year>            <price>39.95</price>        </book>?    </bookstore></body>?</html>‘‘‘

from lxml import etree?page = etree.HTML(html_doc)

路径查找

表达式	描述
nodename	选取此节点的子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

查找当前节点的子节点

In [1]: page.xpath(‘head‘)Out[1]: [<Element head at 0x111c74c48>]

从根节点进行查找

In [2]: page.xpath(‘/html‘)Out[2]: [<Element html at 0x11208be88>]

从整个文档中所有节点查找

In [3]: page.xpath(‘//book‘)Out[3]:[<Element book at 0x1128c02c8>, <Element book at 0x111c74108>, <Element book at 0x111fd2288>, <Element book at 0x1128da348>]

选取当前节点的父节点

In [4]: page.xpath(‘//book‘)[0].xpath(‘..‘)Out[4]: [<Element bookstore at 0x1128c0ac8>]

选取属性

In [5]: page.xpath(‘//book‘)[0].xpath(‘@category‘)Out[5]: [‘COOKING‘]

节点查找

表达式	结果
nodename[1]	选取第一个元素。
nodename[last()]	选取最后一个元素。
nodename[last()-1]	选取倒数第二个元素。
nodename[position()<3]	选取前两个子元素。
nodename[@lang]	选取拥有名为 lang 的属性的元素。
nodename[@lang=‘eng‘]	选取拥有lang属性，且值为 eng 的元素。

选取第二个book元素

In [1]: page.xpath(‘//book[2]/@category‘)
Out[1]: [‘CHILDREN‘]

选取倒数第三个book元素

In [2]: page.xpath(‘//book[last()-2]/@category‘)
Out[2]: [‘CHILDREN‘]

选取第二个元素开始的所有元素

In [3]: page.xpath(‘//book[position() > 1]/@category‘)
Out[3]: [‘CHILDREN‘, ‘WEB‘, ‘WEB‘]

选取category属性为WEB的的元素

In [4]: page.xpath(‘//book[@category="WEB"]/@category‘)
Out[4]: [‘WEB‘, ‘WEB‘]

未知节点

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。

匹配第一个book元素下的所有元素

In [1]: page.xpath(‘//book[1]/*‘)
Out[1]:
[<Element title at 0x111f76788>,
 <Element author at 0x111f76188>,
 <Element year at 0x1128c1a88>,
 <Element price at 0x1128c1cc8>]

获取节点中的文本

用text()获取某个节点下的文本
```
In [1]: page.xpath(‘//book[1]/author/text()‘)
Out[1]: [‘Giada De Laurentiis‘]
```
如果这个节点下有多个文本，则只能取到一段。

用string()获取某个节点下所有的文本

In [2]: page.xpath(‘string(//book[1])‘)
Out[2]: ‘\n            Everyday Italian\n            Giada De Laurentiis\n            2005\n            30.00\n        ‘

选取多个路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

In [1]: page.xpath(‘//book[1]/title/text() | //book[1]/author/text()‘)
Out[1]: [‘Everyday Italian‘, ‘Giada De Laurentiis‘]

原文地址：https://www.cnblogs.com/winfun/p/10984144.html

时间： 2024-09-28 22:57:06

python爬虫基础04-网页解析库xpath的相关文章

网页解析库-Xpath语法

网页解析库简介除了正则表达式外,还有其他方便快捷的页面解析工具如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言,是一门在XML文档中查找信息的语言,同样也适用于HTML文档的搜索. 爬虫我们需要抓取的只是某个网站或者应用的一部分内容结构化先有结构再有数据转化为字典处理(如:json => dict) 非结构化 html 正则 lxml bs4等去解析安装: pip install beautifu

Python_爬虫_BeautifulSoup网页解析库

BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含的几个解析器 Python标准库[主要,系统自带;] 使用方法: BeautifulSoup(markup,"html.parser")[注:markup是html文档] Python的内置标准库案例: ` from bs4 import BeautifulSoup ` soup = BeautifulSoup.(html,'html.pa

转 Python爬虫入门四之Urllib库的高级用法

静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,一般

python爬虫-基础入门-爬取整个网站《3》

python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python2.x 使用类库: >> urllib 库 >> urllib2 库 python3.x 使用的类库: >> urllib 库变化: -> 在python2.x中使用import urllib2 ----- 对应的,在python3.x 中会使用import url

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地. 下面就看看如何使用python来实现这样一个功能. # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def schedule(a,b,c): ''''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0 * a * b / c if per > 100 : per =

python爬虫基础02-urllib库

Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib. 官方文档链接为:https://docs.python.org/3/library/urllib.html 而urllib3则是增加了连接池等功能,两者互相都有补充的部分. urllib 它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,基本上涵盖了基础的网络请

python爬虫——爬取网页数据和解析数据

1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2.网络爬虫的功能图2 网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些金融信息,并进行投资分析等. 有时,我们比较喜欢的新闻网站可能有几个,每次

Python爬虫基础与技巧

基于Python2.7 1 基本抓取网页 get 方法 import urllib2url = "http://www.baidu.com"response = urllib2.urlopen(url)print response.read() post 方法 import urllibimport urllib2 url = "http://abcde.com"form = {'name':'abc','password':'1234'}form_data = u

Python爬虫基础知识及前期准备

学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结.第一次写这些,如果有错误,请多指教. 首先我们需要了解一下什么是爬虫. 根据百度百科上给出的定义," 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本."简单来说,爬虫类似手动下载网页信息,比如小说.歌曲.说到这,或许会有疑问,既然这样,干嘛还去敲代码,直接人工处理不好吗?话是这么说,但如果下载的