scrapy shell

一、scrapy shell

1、安装pip install Jupyter

2、在pycharm中的启动命令： scrapy shell

注：启动后关键字高亮显示

3、查看response

执行scrapy shell http://www.521609.com，查看response

二、Scrapyshell 使用细节

注：调用：scrapy shell https://www.xxx.com/

1、Scrapyshell 终端是一个交互终端

我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据；

2、Jupyter

如果安装了 Jupyter ，Scrapy终端将使用 Jupyter (替代标准Python终端)。 Jupyter 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。推荐安装Jupyter；

3、response

当shell载入后，将得到一个包含response数据的本地 response 变量，输入 response.body将输出response的包体，输出 response.headers 可以看到response的响应头；

4、response.selector

输入 response.selector 时，将获取到一个response 初始化的类 Selector 的对象，此时可以通过使用 response.selector.xpath()或response.selector.css() 来对 response 进行查询；

5、执行命令

1）scrapy shell http://www.ichong123.com/pics/

2）执行：li_list = response.xpath(‘//ul[@class="conlist cf"]/li‘)

3）执行：len(li_list) 证明有数据

4）执行：li_list[0].xpath(‘.//img/@src‘).extract_first()得到图片

5）执行：li_list[0].xpath(‘.//a/text()‘).extract()[0]得到图片名字

以上是Scrapyshell 的基本使用，谢谢关注！！！

欢迎关注小婷儿的博客：

csdn：https://blog.csdn.net/u010986753

博客园：http://www.cnblogs.com/xxtalhr/

有问题请在博客下留言或加QQ群：483766429 或联系作者本人 QQ ：87605025

OCP培训说明连接：https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

OCM培训说明连接：https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

重要的事说三遍。。。。。。

原文地址：https://www.cnblogs.com/xxtalhr/p/9158651.html

时间： 2024-12-12 16:36:06

scrapy shell的相关文章

Scrapy之Scrapy shell

Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端). IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性.(推荐安装IPython) 启动Scrapy Shell 进入项目的根目录,执行下列命令来启动shell: sc

scrapy shell 用法（慢慢更新...）

scrapy shell 命令 1.scrapy shell url #url指你所需要爬的网址 2.有些网址数据的爬取需要user-agent,scrapy shell中可以直接添加头文件, 第①种方法 scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" url #url指你所

Scrapy shell调试网页的信息

通过scrapy shell "http://www.thinkive.cn:10000/zentaopms/www/index.php?m=user&f=login" 证明登录成功 http://www.360doc.com/content/15/0414/20/12067640_463223209.shtml

解决Scrapy shell启动出现UnicodeEncodeError问题

windows 命令行编码是cp936,而D:\Python27\Scripts\scrapy脚本编码是Unicode编码顾在命令行启动会出现编码问题解决办法:修改D:\Python27\Scripts\ 下的scrapy文件,这个文件即scrapy命令的程序文件,加上如下代码即可: import sysdefault_encoding = 'cp936'if sys.getdefaultencoding() != default_encoding: reload(sys) sys.setde

python爬虫scrapy之scrapy终端(Scrapy shell)

Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码. 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码. 该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据. 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦. 一旦熟悉了Scrapy终端后,您会发现其在开发和调试spider时发挥的巨大作用. 如果您安装了

scrapy shell命令的【选项】简介

在使用scrapy shell测试某网站时,其返回400 Bad Request,那么,更改User-Agent请求头信息再试. DEBUG: Crawled (400) <GET https://www.某网站.com> (referer: None) 可是,怎么更改呢? 使用scrapy shell --help命令查看其用法: Options中没有找到相应的选项: Global Options呢?里面的--set/-s命令可以设置/重写配置. 使用-s选项更改了User-Agent配置,

Scrapy框架----- Scrapy Shell

Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端). IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性.(推荐安装IPython) 启动Scrapy Shell 进入项目的根目录,执行下列命令来启动shell: sc

Scrapy——2 Scrapy shell

Scrapy--2 Scrapy shell 什么是Scrapy shell Scrapy shell终端是一个交互终端,我们可以在未启动spider的情况下尝试调试代码,也可以用来测试Xpath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取数据 Scrapy内置选择器: xpah():传入xpath表达式,返回该方法所对应的所有节点的selector list列表 extract():序列化该节点为Unicode字符串并返回list / extracrt_first

Scrapy shell调试返回403错误

(1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' (2):第二种方法是修改scrapy的user-agent默认值找到Python的:安装目录下的default_settings.py文件, C:\Program Files (x86)\Anaconda2\envs\scrapy\Lib\site-packages\scrapy\settings\default_settings.py 修改269行,USER_AGENT: USER_AGENT = 'Mo

猜你喜欢

java-反射

java-反射定义: 剖析java类中的各个组成部分映射成一个java对象. 类=>class 构造方法=>Constructor 成员变量=>Field 方法=>Meth ...

2013 Mac Air 装Win7双系统问题－安装程序无法创建新的分区，也无法定位系统 & Windows无法安装所需的文件，错误代码0x80070570

此非主讲安装过程,主说明过程中遇到的两个问题自己的解决方式. 准备: 准备以下Win7纯净版iso镜像,用Boot Camp方式安装Windows到16GU盘. Win7纯净版资源问题一: Boot ...

Spring面试题

什么是Spring,他有什么特点? Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器框架. ◆轻量——从大小与开销两方面而言Spring都是轻量的.完整的Spring框架可以在一 ...

MySQL Proxy

What is MySQL Proxy? MySQL Proxy is a simple program that sits between your client and MySQL server( ...

毕业设计开题报告任务书参考文献格式和数量要求

主要参考文献要求10篇以上,其中外文文献2篇以上(指导教师认定为特殊类型的论文,可以不列外文参考文献).参考文献必须是公开出版.发表的(含网上下载)著作或期刊(论文),统一放在文后,并按文中出现的先后 ...

编写高质量代码改善C#程序的157个建议——建议20：使用泛型集合代替非泛型集合

建议20:使用泛型集合代替非泛型集合在建议1中我们知道,如果要让代码高效运行,应该尽量避免装箱和拆箱,以及尽量减少转型.很遗憾,在微软提供给我们的第一代集合类型中没有做到这一点,下面我们看Array ...

SpringMVC入门

介绍 SpringMVC是一款Web MVC框架. 它跟Struts框架类似,是目前主流的Web MVC框架之一. 本文通过实例来介绍SpringMVC的入门知识. 实例本文所写的实例是一个员工的C ...

openfire主要插件介绍

这次我们来介绍下openfire提供的可选插件,方便大家在开发中使用. openfire插件下载地址: http://www.igniterealtime.org/projects/openfire/ ...

如何让div中的文字只显示一行，多余的文字隐藏并加上省略号（超链接形式）

写页面的时候遇到了一个小小的问题,如何让div中一行超链接文字只显示一行,多余的文字隐藏并加上省略号,悬浮时隐藏的文字显示出来?解决问题时发现了css3的一个新标签 text-overflow , ...

CSS中右对齐float:right换行的解决办法

问题:同时使用float:left 和right的时候不在同一水平线上第一种解决办法:把左右对换,比如把日期放在标题的前面,对调下位置就好了. 第二种解决办法:给右边也加上float:right 浮 ...

40. SQL -- 批处理及流程控制语句（2）

CASE语句 CASE函数可以计算多个条件式,并将其中一个符合条件的结果表达式返回.CASE函数按照使用形式的不同,可以分为简单CASE函数和搜索CASE函数. 简单CASE 函数将某个表达式与一 ...

[转]Java获取当前路径

1.利用System.getProperty()函数获取当前路径:System.out.println(System.getProperty("user.dir"));//user ...

阅读《构建之法》8，9，10章

第八章需求分析本章主要讲了需求分析,而需求分析是每做一个项目研究时必须先考虑的问题,所以十分重要. 提出问题:怎样能在现在的生活中挖掘人们的新需求,如何能提高找到用户需求的效率? 第九章项目经理 ...

你心目中的墙纸哪家最棒？

很多人为了装饰墙面而选择了墙纸,但真的墙纸选得好会让整个家的氛围一瞬间上升一个台阶哦! 墙布不同于墙纸,传统意义上的墙纸虽然优点颇多,但却仍难掩盖购买时损耗量大.其粘贴在墙面上出现的发泡.拼接缝开裂. ...

UITabBarController 笔记(三) UITabBarController 配合 UINavigationController 的使用

建个空的iOS工程 - (BOOL)application:(UIApplication *)application didFinishLaunchingWithOptions:(NSDictiona ...

Fragment与Activity通信

在Fragment类中,有个方法 public void onAttach(Activity activity),在子Fragment中重写该方法,从该方法的参数中可以看出,该方法中的Activity ...

【Java】课后动手动脑及递归递推的应用

1.代码表示方法为静态方法,在其它类中可以直接通过类名去调用这个方法! 例如public static void main(String[] args){ClassName.prt("ab ...

Xamarin.Android编译CPU类型选择方式

Xamarin.Android编译CPU类型选择方式在Xamarin.Android编译的时候,默认提供了5种CPU类型供大家选择.它们分别为armeabi.armeabi-v7a.arm64-v8 ...

51单片机入门与keil的使用

keil软件下载 keil uvision4以及注册机 http://www.liangchan.net/soft/softdown.asp?softid=5688 单独的注册机 http://www ...

常见 Datagrid 错误

摘要:学习如何避免在使用 ASP.NET Datagrid 控件进行开发时可能发生的一些常见错误(本文包含一些指向英文站点的链接). Datagrid 控件是 Microsoft® ASP.NET 中 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.