常见的爬虫分析库（2）-xpath语法

xpath简介

1.xpath使用路径表达式在xml和html中进行导航

2.xpath包含标准函数库

3.xpath是一个w3c的标准

xpath节点关系

1.父节点

2.子节点

3.同胞节点

4.先辈节点

5.后代节点

xpath语法

表达式	s说明
article	选取所有article元素的子节点
/article	选取根元素article
article/a	选取所有属于article的子元素a的元素
//div	选取所有div子元素（不论出现在文档任何地方）
/article//div	选取所有属于article元素的后代div元素。不管它出现在article元素之下的任何位置
//@class	选取所有名为class的属性
/article/div[1]	选取属于article子元素的第一个div元素
/article/div[last()]	选取属于article子元素的最后一个div元素
/article/div[last()-1]	选取属于article子元素的倒数第二个div元素
//div[@lang]	选取所有拥有lang熟悉的div元素
//div[@lang=‘eng‘]	选取所有lang属性为eng的元素
/div/*	选取属于div元素的所有子节点
//*	选取所有元素
//div[@*]	选取所有带属性div元素
/div/a\|//div/p	选取所有div元素的a和p元素
//span\|//ul	选取文档中的span和ul元素
article/div/p\|//span	选取所有属于article元素的div元素的p元素，以及文档中所有的span元素

原文地址：https://www.cnblogs.com/yunlongaimeng/p/9802090.html

时间： 2024-11-07 22:20:36

常见的爬虫分析库（2）-xpath语法的相关文章

常见的爬虫分析库（4）-爬虫之PyQuery

PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎完全相同. 官方文档:http://pyquery.readthedocs.io/ 安装 1 pip install pyquery 初始化字符串初始化 1 2 3 4 5 6 7 8 9 10 11 12 13 14 html = ''' <div> <ul> <li class="item-0">first item</l

常见的爬虫分析库（3）-Python正则表达式与re模块

在线正则表达式测试 http://tool.oschina.net/regex/ 常见匹配模式模式描述 \w 匹配字母数字及下划线 \W 匹配非字母数字下划线 \s 匹配任意空白字符,等价于 [\t\n\r\f]. \S 匹配任意非空字符 \d 匹配任意数字,等价于 [0-9] \D 匹配任意非数字 \A 匹配字符串开始 \Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串 \z 匹配字符串结束 \G 匹配最后匹配完成的位置 \n 匹配一个换行符 \t 匹配一个制表符 ^ 匹配字

Python爬虫利器三之Xpath语法与lxml库的用法

前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath. 参考文档: lxml python 官方文档 XPath语法参考 w3school 安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在

网页解析库-Xpath语法

网页解析库简介除了正则表达式外,还有其他方便快捷的页面解析工具如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言,是一门在XML文档中查找信息的语言,同样也适用于HTML文档的搜索. 爬虫我们需要抓取的只是某个网站或者应用的一部分内容结构化先有结构再有数据转化为字典处理(如:json => dict) 非结构化 html 正则 lxml bs4等去解析安装: pip install beautifu

Xpath语法-爬虫(一)

前言这一章节主要讲解Xpath的基础语法,学习如何通过Xpath获取网页中我们想要的内容;为我们的后面学习Java网络爬虫基础准备工作. 备注:此章节为基础核心章节,未来会在网络爬虫的数据解析环节经常使用,学会Xpath解析语法,可为未来爬虫解析省去很多麻烦. Xpath简介 XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力.

Xpath语法与lxml库的用法

BeautifulSoup 已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法. 1.安装 pip install lxml 2. XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上. 选取节点: XPath 使用路径表达式在 X

【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜

实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install lxml) IDEA开发工具:PyCharm_2017.3 Python版本:Python3 期望结果:爬取出排行版歌名以及对应歌手运行效果图: 音乐排行榜: 爬取数据结果图: 像这种简单的爬取就没必要使用Scrapy框架进行处理,是在有点大材小用,不过如果你刚开始学Scrapy的话,拿这些简单的练

PowerShell技巧：使用XPath语法查询XML文件

[TechTarget中国原创] XML是存储结构化数据的一个很好的途径,但是想要让数据在其中发挥作用又会有些困难.每一种语言都有其特定方式来查询XML文件中的命名空间.元素及属性.PowerShell也不例外.PowerShell在查询XML文件时会略有不同,而该技巧主要依赖于Select-Xml命令和XPath语法上. XPath是定义XML文件组成的语言.XPath早在1999年就已经存在,一直被用于查询XML文件最标准的方法. XPath将XML文件定义为树.XML文件中的每个节点都节点

XML XPath语法总结

刚刚遇到一个多重查询xmlDoc.SelectSingleNode("Root/Element[@Name='大气象'][@Age='30']")根据innerText查询xmlDoc.SelectSingleNode("Root/Element[text()='大气象']")顺便收集总结一下.Xml中SelectSingleNode方法中的xpath用法最常见的XML数据类型有:Element, Attribute,Comment, Text. Element,