一、scrapy shell
1、安装pip install Jupyter
2、在pycharm中的启动命令: scrapy shell
注:启动后关键字高亮显示
3、查看response
执行scrapy shell http://www.521609.com,查看response
二、Scrapyshell 使用细节
注:调用:scrapy shell https://www.xxx.com/
1、Scrapyshell 终端是一个交互终端
我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据;
2、Jupyter
如果安装了 Jupyter ,Scrapy终端将使用 Jupyter (替代标准Python终端)。 Jupyter 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性。推荐安装Jupyter;
3、response
当shell载入后,将得到一个包含response数据的本地 response 变量,输入 response.body将输出response的包体,输出 response.headers 可以看到response的响应头;
4、response.selector
输入 response.selector 时, 将获取到一个response 初始化的类 Selector 的对象,此时可以通过使用 response.selector.xpath()或response.selector.css() 来对 response 进行查询;
5、执行命令
1)scrapy shell http://www.ichong123.com/pics/
2)执行:li_list = response.xpath(‘//ul[@class="conlist cf"]/li‘)
3)执行:len(li_list) 证明有数据
4)执行:li_list[0].xpath(‘.//img/@src‘).extract_first()得到图片
5)执行:li_list[0].xpath(‘.//a/text()‘).extract()[0]得到图片名字
以上是Scrapyshell 的基本使用,谢谢关注!!!
欢迎关注小婷儿的博客:
csdn:https://blog.csdn.net/u010986753
博客园:http://www.cnblogs.com/xxtalhr/
有问题请在博客下留言或加QQ群:483766429 或联系作者本人 QQ :87605025
OCP培训说明连接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA
OCM培训说明连接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA
小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。
小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。
小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。
重要的事说三遍。。。。。。
原文地址:https://www.cnblogs.com/xxtalhr/p/9158651.html