1首先需要调用lxml 和lxml.html模块
2做成doc文件: 两种方法:doc = lxml.html.fromstring(page) doc=soupparser.fromstring(page)
3解析 首先分清节点。取text例如:直接调用xpath即可:doc.xpath(‘//books/title/text()‘)是books节点下的title的文本内容。还有就是取标签:doc.xpath(‘//title/@lang‘)取得title下的属性为lang的标签的内容
4另附xpath基本语法:http://www.w3school.com.cn/xpath/xpath_syntax.asp
时间: 2024-10-26 04:40:02