一:XPath介绍
XPath全称XML路径语言,用于确定XML文档中某部分位置。XPath基于XML树状结构,在树中寻找结点。
现在,一般使用XPath在XML中查找、提取信息,同时,它也支持HTML。所以,我们可以用XPath取代正则表达式来提取信息。
XPath通过元素以及属性进行导航。
二:XPath使用大概步骤
1:安装lxml模块
2:导入树形结构
from lxml import etree
3:把requests抓取的网页转化为树形结构
selector=etree.HTML(网页源码)
4:从树形结构中查找信息
selector.xpath(查找条件)
三:代码实战
时间: 2024-10-10 13:46:49