python爬虫基础04-网页解析库xpath

更简单高效的HTML数据提取-Xpath

本文地址:https://www.jianshu.com/p/90e4b83575e2

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

相比于BeautifulSoupXpath在提取数据时会更加的方便。


安装

在Python中很多库都有提供Xpath的功能,但是最基本的还是lxml这个库,效率最高。在之前BeautifulSoup章节中我们也介绍到了lxml是如何安装的。

pip install lxml

语法

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

我们将用以下的HTML文档来进行演示:

html_doc = ‘‘‘<html>?<head></head>?<body>    <bookstore>?        <book category="COOKING">            <title lang="en">Everyday Italian</title>            <author>Giada De Laurentiis</author>            <year>2005</year>            <price>30.00</price>        </book>?        <book category="CHILDREN">            <title lang="en">Harry Potter</title>            <author>J K. Rowling</author>            <year>2005</year>            <price>29.99</price>        </book>?        <book category="WEB">            <title lang="en">XQuery Kick Start</title>            <author>James McGovern</author>            <author>Per Bothner</author>            <author>Kurt Cagle</author>            <author>James Linn</author>            <author>Vaidyanathan Nagarajan</author>            <year>2003</year>            <price>49.99</price>        </book>?        <book category="WEB">            <title lang="en">Learning XML</title>            <author>Erik T. Ray</author>            <year>2003</year>            <price>39.95</price>        </book>?    </bookstore></body>?</html>‘‘‘
from lxml import etree?page = etree.HTML(html_doc)

路径查找

表达式 描述
nodename 选取此节点的子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。
  • 查找当前节点的子节点

    In [1]: page.xpath(‘head‘)Out[1]: [<Element head at 0x111c74c48>]
  • 从根节点进行查找
    In [2]: page.xpath(‘/html‘)Out[2]: [<Element html at 0x11208be88>]
  • 从整个文档中所有节点查找
    In [3]: page.xpath(‘//book‘)Out[3]:[<Element book at 0x1128c02c8>, <Element book at 0x111c74108>, <Element book at 0x111fd2288>, <Element book at 0x1128da348>]
  • 选取当前节点的父节点
    In [4]: page.xpath(‘//book‘)[0].xpath(‘..‘)Out[4]: [<Element bookstore at 0x1128c0ac8>]
  • 选取属性
    In [5]: page.xpath(‘//book‘)[0].xpath(‘@category‘)Out[5]: [‘COOKING‘]

节点查找

表达式 结果
nodename[1] 选取第一个元素。
nodename[last()] 选取最后一个元素。
nodename[last()-1] 选取倒数第二个元素。
nodename[position()<3] 选取前两个子元素。
nodename[@lang] 选取拥有名为 lang 的属性的元素。
nodename[@lang=‘eng‘] 选取拥有lang属性,且值为 eng 的元素。
  • 选取第二个book元素

    In [1]: page.xpath(‘//book[2]/@category‘)
    Out[1]: [‘CHILDREN‘]
    
  • 选取倒数第三个book元素
    In [2]: page.xpath(‘//book[last()-2]/@category‘)
    Out[2]: [‘CHILDREN‘]
    
  • 选取第二个元素开始的所有元素
    In [3]: page.xpath(‘//book[position() > 1]/@category‘)
    Out[3]: [‘CHILDREN‘, ‘WEB‘, ‘WEB‘]
    
  • 选取category属性为WEB的的元素
    In [4]: page.xpath(‘//book[@category="WEB"]/@category‘)
    Out[4]: [‘WEB‘, ‘WEB‘]
    

未知节点

通配符 描述
* 匹配任何元素节点。
@* 匹配任何属性节点。
  • 匹配第一个book元素下的所有元素

    In [1]: page.xpath(‘//book[1]/*‘)
    Out[1]:
    [<Element title at 0x111f76788>,
     <Element author at 0x111f76188>,
     <Element year at 0x1128c1a88>,
     <Element price at 0x1128c1cc8>]
    

获取节点中的文本

  • text()获取某个节点下的文本

    In [1]: page.xpath(‘//book[1]/author/text()‘)
    Out[1]: [‘Giada De Laurentiis‘]
    

    如果这个节点下有多个文本,则只能取到一段。

  • string()获取某个节点下所有的文本
    In [2]: page.xpath(‘string(//book[1])‘)
    Out[2]: ‘\n            Everyday Italian\n            Giada De Laurentiis\n            2005\n            30.00\n        ‘
    

选取多个路径

通过在路径表达式中使用“|”运算符,您可以选取若干个路径。

In [1]: page.xpath(‘//book[1]/title/text() | //book[1]/author/text()‘)
Out[1]: [‘Everyday Italian‘, ‘Giada De Laurentiis‘]

原文地址:https://www.cnblogs.com/winfun/p/10984144.html

时间: 2024-09-28 22:57:06

python爬虫基础04-网页解析库xpath的相关文章

网页解析库-Xpath语法

网页解析库 简介 除了正则表达式外,还有其他方便快捷的页面解析工具 如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言,是一门在XML文档中查找信息的语言,同样也适用于HTML文档的搜索. 爬虫 我们需要抓取的只是某个网站或者应用的一部分内容 结构化 先有结构 再有数据 转化为字典处理(如:json => dict) 非结构化 html 正则 lxml bs4等去解析 安装: pip install beautifu

Python_爬虫_BeautifulSoup网页解析库

BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含 的 几个解析器 Python标准库[主要,系统自带;] 使用方法: BeautifulSoup(markup,"html.parser")[注:markup是html文档] Python的内置标准库 案例: ` from bs4 import BeautifulSoup ` soup = BeautifulSoup.(html,'html.pa

转 Python爬虫入门四之Urllib库的高级用法

静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,一般

python爬虫-基础入门-爬取整个网站《3》

python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python2.x 使用类库: >> urllib 库 >> urllib2 库 python3.x 使用的类库: >> urllib 库 变化: -> 在python2.x中使用import urllib2 ----- 对应的,在python3.x 中会使用import url

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地. 下面就看看如何使用python来实现这样一个功能. # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def schedule(a,b,c): ''''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0 * a * b / c if per > 100 : per =

python爬虫基础02-urllib库

Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib. 官方文档链接为:https://docs.python.org/3/library/urllib.html 而urllib3则是增加了连接池等功能,两者互相都有补充的部分. urllib 它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,基本上涵盖了基础的网络请

python爬虫——爬取网页数据和解析数据

1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2.网络爬虫的功能   图2 网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些金融信息,并进行投资分析等. 有时,我们比较喜欢的新闻网站可能有几个,每次

Python爬虫基础与技巧

基于Python2.7 1 基本抓取网页 get 方法 import urllib2url = "http://www.baidu.com"response = urllib2.urlopen(url)print response.read() post 方法 import urllibimport urllib2 url = "http://abcde.com"form = {'name':'abc','password':'1234'}form_data = u

Python爬虫基础知识及前期准备

学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结.第一次写这些,如果有错误,请多指教. 首先我们需要了解一下什么是爬虫. 根据百度百科上给出的定义," 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本."简单来说,爬虫类似手动下载网页信息,比如小说.歌曲.说到这,或许会有疑问,既然这样,干嘛还去敲代码,直接人工处理不好吗?话是这么说,但如果下载的