Scrapy——2 Scrapy shell
什么是Scrapy shell
Scrapy shell终端是一个交互终端,我们可以在未启动spider的情况下尝试调试代码,也可以用来测试Xpath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取数据
Scrapy内置选择器:
- xpah():传入xpath表达式,返回该方法所对应的所有节点的selector list列表
- extract():序列化该节点为Unicode字符串并返回list / extracrt_first()
- css():传入CSS表达式,返回该表达式所对用的所有的节点的selector list 列表,语法同BeautifulSoup4
- re():根据传入的正则表达式对数据进行提取,返回Unicode字符串list列表
什么是sipder
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方
实战
当我们爬取腾讯的招聘信息时,假设我们需要的数据是,岗位名称,链接,类别,工作地点,发布时间。
我们需要匹配多个数据,可以先用scrapy shell url 先尝试解析,命令回车,会进入python的交互模式,如果安装了ipython,
会优先进入ipython的环境。
然后responde已经默认请求完成。直接response.xpath(‘//**‘)就可以解析数据,非常方便
在项目开发中非常实用
原文地址:https://www.cnblogs.com/pywjh/p/9939740.html
时间: 2024-11-05 16:09:08