scrapy 下载器中间件

下载器中间件如下列表

[‘scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware‘,

‘scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware‘,

‘scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware‘,

‘scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware‘,

‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware‘,

‘scrapy.downloadermiddlewares.retry.RetryMiddleware‘,

‘scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware‘,

‘scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware‘,

‘scrapy.downloadermiddlewares.redirect.RedirectMiddleware‘,

‘scrapy.downloadermiddlewares.cookies.CookiesMiddleware‘,

‘scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware‘,

‘scrapy.downloadermiddlewares.stats.DownloaderStats‘]

下载器中间件的四个函数

from_crawler(cls,crawler) 配置函数

process_reuquest 处理请求

process_response 处理响应

process_exception 异常出现时触发

随机切换user_agent

from faker import Faker
class MySpiderMiddleware(object):
    def __init__(self):
        self.fake = Faker()

    def process_request(self,request,spider):
        request.headers.setdefault(‘User-Agent‘,self.fake.user_agent())

DOWNLOADER_MIDDLEWARES = {   #‘middle.middlewares.MyCustomDownloaderMiddleware‘: 543,   ‘middle.middlewares.MySpiderMiddleware‘: 100,   ‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware‘: None,}

第一种方式 在setting 配置里面配置，我也没测试过，到底是一直是随机取其中一个还是每次请求都随机一个

USER_AGENT_LIST=[
‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36‘
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
USER_AGENT = random.choice(USER_AGENT_LIST)

第二种方式写一个自己的randomUseragent中间件并且在setting里面启用，但是要修改顺序靠前，比如100 或者直接把默认启用的user_agent 设置为None

第三种方式直接继承默认的userAgent中间件，然后改写方法

中间件可以用faker来实现或者自己招个列表也可以

def process_request(self,request,spider):
        request.headers.setdefault(‘User-Agent‘,self.fake.user_agent())

原文地址：https://www.cnblogs.com/php-linux/p/11829432.html

时间： 2024-10-11 02:48:04

scrapy 下载器中间件的相关文章

下载器中间件

Downloader Middlewares(下载器中间件) 下载器中间件是引擎和下载器之间通信的中间件.在这个中间件中我们可以设置代理.更换请求头等来达到反反爬虫的目的.要写下载器中间件,可以在下载器中实现两个方法.一个是process_request(self, spider),这个方法是在请求发送之前执行,还有一个是process_response(self, request, response, spider),这个方法是数据下载到引擎之前执行. process_request(self

scrapy学习2 爬虫中间件，下载器中间件之添加代理

中间件注意:这些中间件都放在middleware中下载中间件作用实例: 代理被封,添加代理方式一:内置添加代理功能 import os # -*- coding: utf-8 -*- import os import scrapy from scrapy.http import Request class ChoutiSpider(scrapy.Spider): name = 'chouti' allowed_domains = ['chouti.com'] start_urls =

python爬虫Scrapy框架之中间件

Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spider的时候, 所以说下载中间件是结余Scrapy的request/response处理的钩子, 用于修改Scrapy request和response. 编写自己的下载器中间件 : 编写下载器中间件, 需要定义下一或者多个方法的python类新建一个关于爬取httpbin.org网站的项目 scrapy startproject httpbintest cd

scrapy下载图片第一波

scrapy的图片管道,在ImagePipeline类中实现 ,提供了一个方便并具有额外特性的方法,来下载并本地存储图片: * 将所有下载的图片转换成通用的格式(JPG)和模式(RGB) * 避免重新下载最近已经下载过的图片 * 缩略图生成 * 检测图像的宽/高,确保它们满足最小的限制这个管道也会为那些当前安排好要下载的图片保留一个内部队列,并将那些到达的包含相同图片的项目连接到那个队列中. 这可以避免多次下载几个项目共享的同一个图片. Pillow是用来生成缩略图,并将图片归一化为JPEG/

python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 编写正则表达式或者XPath表达式(就是前面说的那个神器) 正式编写python爬虫代码效果运行: 恩,让我输入关键词,让我想想,输入什么好呢?好像有点暴露爱好了. 回车好像开始下载了!好赞!,我看

Python 10min 面试题解析丨Python实现多连接下载器

作者:蜗牛 shengxinjing (woniuppp) · GitHub 今天群里看到有人问关于 Python 多线程写文件的问题,联想到这是 Reboot 的架构师班的入学题.我想了一下,感觉坑和考察的点还挺多的,可以当成一个面试题来问,简单说一下我的想法和思路吧,涉及的代码和注释在 GitHub 上 (https://github.com/shengxinjing/my_blog/blob/master/downloader/downloader.py) 当年的网络蚂蚁"多点同时下载.并

网站下载器WebZip、Httrack及AWWWB.COM网站克隆器

动机闲扯节点,可略读. 下载并试用这些软件并非是为了一己之私,模仿他人网站以图利.鉴于国内网络环境之艰苦,我等屌丝级半罐水程序员,纵有百度如诸葛大神万般协力相助,也似后主般无能不能解决工作和娱乐中的诸多困难.就那如近段时间自学Android开发为例,不说下载Android SDK费了九牛二虎之力,想看看Android官网文档,每次都想尽一切办法,使用各种手段(fg742p.exe?fg752p.exe?goagent? 看官或许笑我,何须如此费力,VPS+VPN,带你装逼带你飞,so ea

自己动手写工具：百度图片批量下载器

开篇:在某些场景下,我们想要对百度图片搜出来的东东进行保存,但是一个一个得下载保存不仅耗时而且费劲,有木有一种方法能够简化我们的工作量呢,让我们在离线模式下也能爽爽地浏览大量的美图呢?于是,我们想到了使用网络抓取去帮我们去下载图片,并且保存到我们设定的文件夹中,现在我们就来看看如何来设计开发一个这样的图片批量下载器. 一.关于网络抓取与爬虫网络蜘蛛的主要作用是从Internet上不停地下载网络资源.它的基本实现思想就是通过一个或多个入口网址来获取更多的URL,然后通过对这些URL所指向的网络资

python3写的腾讯漫画下载器

代码很稀烂,开坑后一个月的时间,断断续续总算是写完了,主体功能完成,顺便PYQT5写了个GUI,并用cx_freeze打包,可以在windows下用. 项目托管在github: https://github.com/abcfy2/getComic 预览效果放几张预览图,支持不连续的章节选择下载. windows下的效果: deepin下效果: 算法描述腾讯的漫画从PC版访问时看到的是flash,但是移动版的页面却是图片,用ipad的UA请求ac.qq.com可以发现跳转为m.ac.qq.co