scrapy之 downloader middleware

一. 功能说明

Downloader Middleware有三个核心的方法

process_request(request, spider)

process_response(request, response, spider)

process_exception(request, exception, spider)

二. 本次实验实现两个功能

1. 修改请求时的user-agent

方法一：修改settings里面的USER_AGENT变量，加一行USER_AGENT = ‘....‘即可

方法二：修改middleware.py，这里实现得到一个随机的user-agent，在里面定义一个RandomUserAgentMiddleware类，并写一个process_request()函数

2. 修改网页响应时的返回码

在middleware.py中定义一个process_response()函数

三. 具体实现

scrapy startproject httpbintest

cd httpbintest && scrapy genspider httpbin httpbin.org

修改httpbin.py代码

 -*- coding: utf-8 -*-
import scrapy

class HttpbinSpider(scrapy.Spider):
    name = ‘httpbin‘
    allowed_domains = [‘httpbin.org‘]
    start_urls = [‘http://httpbin.org/get‘]

    def parse(self, response):
       # print(response.text)
        self.logger.debug(response.text)
        self.logger.debug(‘status code: ‘ + str(response.status))

在middlewares.py添加如下代码

其中的process_request函数是得到一个随机的user-agent； process_response函数是修改网页返回码为201

import random

class RandomUserAgentMiddleware():
    def __init__(self):
        self.user_agents = [
            ‘Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)‘,
            ‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2‘,
            ‘Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1‘
        ]

    def process_request(self, request, spider):
        request.headers[‘User-Agent‘] = random.choice(self.user_agents)

    def process_response(self, request, response, spider):
        response.status = 201
        return response

settings.py中添加如下代码，使上面修改生效

DOWNLOADER_MIDDLEWARES = {
    ‘httpbintest.middlewares.RandomUserAgentMiddleware‘: 543,
}

原文地址：https://www.cnblogs.com/regit/p/9406279.html

时间： 2024-10-17 21:56:48

scrapy之 downloader middleware的相关文章

Python爬虫从入门到放弃（二十三）之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换

原文地址https://www.cnblogs.com/zhaof/p/7345856.html 总架构理解Middleware 通过scrapy官网最新的架构图来理解: 这个图较之前的图顺序更加清晰,从图中我们可以看出,在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可以设置中间件,两者是双向的,并且是可以设置多层. 关于Downloader Middleware我在http://www.cnblogs.com/zhaof/p/7198407.html 这篇博客中

scrapy之 Spider Middleware（爬虫中间件）

Spider Middleware是介入到Scrapy与Spider处理机制的钩子框架.所处位置: 当 Downloder生成Response之后,Response 会被发送给 Spider,在发送给 Spider之前,Response 会首先经过 Spider Middleware处理,当Spider处理生成Item 和Request之后,Item和Request还会经过 Spider Middleware 的处理. Spider Midleware 有如下三个作用: 我们可以在 Downml

爬虫框架Scrapy之Downloader Middlewares

反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes require special infrastructure. Please consider

Python爬虫系列之----Scrapy(七)使用IP代理池

一.手动更新IP池 1.在settings配置文件中新增IP池: IPPOOL=[ {"ipaddr":"61.129.70.131:8080"}, {"ipaddr":"61.152.81.193:9100"}, {"ipaddr":"120.204.85.29:3128"}, {"ipaddr":"219.228.126.86:8123"},

python语言写的新浪爬虫

用python做了一个爬虫,程序没有错,但是运行结果如下,请问是设么问题?求高手解答D:\eclipse\workspace\sina_spider\Sina_spider1\spiders\spiders.py:5: ScrapyDeprecationWarning: Module `scrapy.spider` is deprecated, use `scrapy.spiders` instead from scrapy.spider import CrawlSpider 2017-04-2

调度 engine._next_request_from_scheduler() 取出request交给handler，结果是request，执行engine.craw()，结果是resp/fail，下一步看scraper.enqueue_scrape()

0.def _next_request_from_scheduler(self, spider): C:\Program Files\Anaconda2\Lib\site-packages\scrapy\core\engine.py def _next_request_from_scheduler(self, spider): slot = self.slot request = slot.scheduler.next_request() #首先从优先级队列取出一个 request if not