scrapy笔记

1、关于请求url状态码重定向问题：

from scrapy import Request

handle_httpstatus_list = [404, 403, 500, 503, 521, 522, 524,301,302]

return Request(self.purl,headers=self.send_headers,meta={‘dont_redirect‘:True}, callback=self.parse)

if response.status in self.handle_httpstatus_list:    print response.body    print response.headers[‘Location‘] # 重定向地址    print response.url # 原始地址

其中 scrapy 自带 Request 请求遇到302跳转不会继续，如果不接收302状态码的话，程序将不会执行到parse函数。如果不用settings中的日志去判断，你会郁闷死的：

LOG_ENABLED = TrueLOG_ENCODING = ‘utf-8‘LOG_FILE = ‘logging.log‘LOG_LEVEL = ‘DEBUG‘# LOG_LEVEL = ‘WARNING‘LOG_STDOUT = False

logging.log:

2017-05-17 17:25:55 [scrapy] INFO: Spider opened2017-05-17 17:25:55 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2017-05-17 17:25:55 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:60232017-05-17 17:26:00 [scrapy] DEBUG: Crawled (302) <GET http://app.58.com/api/list/ershoufang/?tabkey=allcity&action=getListInfo&curVer=7.5.1&isNeedAd=0&ct=filter&os=ios&filterparams=%7B%22param1077%22:%221%22,%22filterLocal%22:%22rongchengqu%22%7D&appId=1&page=1&localname=jy> (referer: None)2017-05-17 17:26:00 [site58_sale] DEBUG: Read 1 requests from ‘site58_sale‘

时间： 2024-10-05 05:07:45

scrapy笔记的相关文章

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/,然后右击空白处,选择"查看网页源代码",如下所示: 就会发现一片空白留意到红线处指定了一个名为api.json的文件,于是打开浏览器的调试器中的Network面板,找到名为api.json的标签在上图的红色框里就找到了原网页中的内容,这是一个简单的JSON API,有些复杂的API会要

Learning Scrapy笔记（七）- Scrapy根据Excel文件运行多个爬虫

摘要:根据Excel文件配置运行多个爬虫很多时候,我们都需要为每一个单独的网站编写一个爬虫,但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同,此时要分别为每一个网站编写一个爬虫就显得徒劳了,其实可以只使用一个spider就爬取这些相似的网站. 首先创建一个名为generic的工程和一个名为fromcsv的spider: scrapy startproject generic cd generic scrapy genspider fromcsv example.com 然

Scrapy 笔记

1.入门教程:官方文档新建项目:scrapy startproject tutorial 运行程序 :quotes 文件名 scrapy crawl quotes pycharm中Terminal使用shell进行与scrapy交互 1 scrapy shell quotes.toscrape.com 保存为json文件or csv , 还支持xml文件 scrapy crawl quotes -o quotes.json scrapy crawl quotes -o quotes.csv 原

windows下scrapy框架学习笔记—'scrapy' 不是内部或外部命令

最近几天在深入的学习scrapy框架,但是装完各种需要的基础包之后却发现scrapy命令在别的路径下都用不了,我一开始是把python安装在F:\Python路径下的,安装了scrapy后它默认都会安装在这个路径下,scrapy在路径F:\Python\Scripts路径下,我的scrapy命令只能在此路径下用,因此创建什么工程也都只能在此文件下. 想了一下它的工作原理:它在F:\Python\Scripts路径下,就会在Scripts文件下存在一个scrapy批处理文件,那么在DOS下想要命令

Scrapy学习笔记

所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据.不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了.一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样. Scrapy是一个基于

【转载】Scrapy安装及demo测试笔记

Scrapy安装及demo测试笔记原创 2016年09月01日 16:34:00 标签: scrapy / python Scrapy安装及demo测试笔记一.环境搭建 1. 安装scrapy:pip install scrapy 2.安装:PyWin32,可以从网上载已编译好的安装包:http://www.lfd.uci.edu/%7Egohlke/pythonlibs/#pywin32 安装完之后会报如下错误解决办法,把以下两个文件拷贝到C:\Windows\System32目录下二

scrapy学习笔记(1)

初探scrapy,发现很多入门教程对应的网址都失效或者改变布局了,于是自己摸索做一个笔记. 环境是win10 python3.6(anaconda). 安装 pip install scrapy 这次先尝试爬取美剧天堂(http://www.meijutt.com/) 目标页面: 原文地址:https://www.cnblogs.com/xcx2/p/8454589.html

python scrapy学习笔记（二）

使用scrapy批量抓取,参考http://python.jobbole.com/87155 一.创建项目 # scrapy startproject comics 创建完成后的目录结构 . ├── comics │ ├── __init__.py │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ └── __init__.py └─

python scrapy学习笔记

scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型. 一.安装scrapy # pip install scrapy 二.基本使用 1.初始化scrapy项目 # scrapy startproject myscrapy 初始化完成后的目录结构 # tree . ├── myscrapy │ ├── __init__.py │ ├── items.py # 设置数据存储模板,用于结构化数据 │