UA池和代理池(IP)

UA池(每一次请求采用池中的随机UA)

a) 在中间件类中进行导包

from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware 

b)封装一个基于UserAgentMiddleware的类,且重写该类

  例:

  middleware.py

from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware
import random

ua_list = [‘Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50‘,
           ‘User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50‘,
           ‘User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;‘,
           ‘User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)‘,
           ‘User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)‘,
           ‘User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)‘,
           ‘User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1‘,
           ‘User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1‘,
           ‘User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11‘]
ip_http_list = [‘90.229.216.218:46796‘, ‘110.235.250.7:49341‘, ‘81.163.62.136:41258‘, ‘195.34.207.47:60878‘]
ip_https_list = [‘140.227.207.211:60088‘, ‘140.227.209.210:60088‘, ‘185.132.133.102:1080‘]

class UserAgentRandom(UserAgentMiddleware):
    def process_request(self, request, spider):
        ua = random.choice(ua_list)
        request.headers.setdefault(‘User-Agent‘, ua)

settings.py

DOWNLOADER_MIDDLEWARES = {
   ‘handle5.middlewares.Handle5DownloaderMiddleware‘: 543,
   ‘handle5.middlewares.UserAgentRandom‘: 542,
   ‘handle5.middlewares.IpRandom‘: 541
}

代理池(IP 每次请求的IP地址随机从IP池中获取)

middleware.py

class IpRandom:
    def process_request(self, request, spider):
        url = request.url
        head = url.split(":")[0]
        if head == "http":
            request.meta["proxy"] = "http://" + random.choice(ip_http_list)
        else:
            request.meta["proxy"] = "https://" + random.choice(ip_https_list)

原文地址:https://www.cnblogs.com/cjj-zyj/p/10208770.html

时间: 2024-07-30 07:02:13

UA池和代理池(IP)的相关文章

14.UA池和代理池

14.UA池和代理池 今日概要 scrapy下载中间件 UA池 代理池 今日详情 一.下载中间件 先祭出框架图: 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件. - 作用: (1)引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理.比如设置请求的 User-Agent,设置代理等 (2)在下载器完成将Response传递给引擎中,下载中间件可以对响应进行一系列处理.比如进行gzip解压等. 我们主要使用下载中间件处理请求,

【Scrapy框架设置UA池与代理池】 -- 2019-08-08 17:20:36

原创: http://106.13.73.98/__/142/ 先来张Scrapy框架图压压惊 下载中间件(Downloader Middlewares)是位于Scrapy引擎和下载器之间的一层组件. 它的作用是: 在引擎将请求传递给下载器的过程中,下载中间件可以对请求进行一系列的处理.比如设置User-Agent.设置代理IP等. 在下载器将Response传递给引擎的过程中,下载中间件可以对响应进行一系列的处理.比如进行gzip解压等. 下面将使用下载中间件来实现UA池与代理池 我们一般使用

【Scrapy框架设置UA池与代理池】 -- 2019-08-08 18:00:10

原文: http://106.13.73.98/__/142/ 先来张Scrapy框架图压压惊 下载中间件(Downloader Middlewares)是位于Scrapy引擎和下载器之间的一层组件. 它的作用是: 在引擎将请求传递给下载器的过程中,下载中间件可以对请求进行一系列的处理.比如设置User-Agent.设置代理IP等. 在下载器将Response传递给引擎的过程中,下载中间件可以对响应进行一系列的处理.比如进行gzip解压等. 下面将使用下载中间件来实现UA池与代理池 我们一般使用

【Scrapy框架设置UA池与代理池】 񊺟

原文: http://blog.gqylpy.com/gqy/367 先来张Scrapy框架图压压惊 下载中间件(Downloader Middlewares)是位于Scrapy引擎和下载器之间的一层组件. 它的作用是: 在引擎将请求传递给下载器的过程中,下载中间件可以对请求进行一系列的处理.比如设置User-Agent.设置代理IP等. 在下载器将Response传递给引擎的过程中,下载中间件可以对响应进行一系列的处理.比如进行gzip解压等. 下面将使用下载中间件来实现UA池与代理池 我们一

10 UA池和代理池在Scrapy中的应用

下载中间件简介 在Scrapy中,引擎和下载器之间有一个组件,叫下载中间件(Downloader Middlewares).因它是介于Scrapy的request/response处理的钩子,所以有2方面作用: (1)引擎将请求传递给下载器过程中,下载中间件可以对Requests进行一系列处理.比如设置请求的 User-Agent,设置代理ip等 (2)在下载器完成将Response传递给引擎中,下载中间件可以对Responses进行一系列处理.比如进行gzip解压等. 爬虫中,主要使用下载中间

UA池和代理池

一.概要 scrapy下载中间件 UA池 代理池 二. 详情 1.框架图: 下载中间件(Downloader Middlewares)位于scrapy引擎和下载器之间的一层组件 2.作用: (1). 引擎将请求传递给下载器过程中,下载中间件可以对请求进行一系列处理,比如设置请求的User-Agent, 设置代理等 (2). 在下载器完成将Response传递给引擎中,下载中间件可以对响应进行一系列处理,比如进行gzip解压等 我们主要使用下载中间件处理请求,一般会对请求设置随机的User-Age

ProxyApi-大数据采集用的IP代理池

用于大数据采集用的代理池 在数据采集的过程中,最需要的就是一直变化的代理ip. 自建adsl为问题是只有一个区域的IP. 买的代理存在的问题是不稳定,影响采集效率. 云vps不允许安装花生壳等,即使有花生壳,它的解析也不及时,跟不上3分钟变一次. 本项目的作用是将目前的云vps,安装代理软件,然后使用脚本每隔3分钟拨号一次,返回当前可用的ip给代理池,代理池记录后,提供给API接口给采集程序调用. 一共有几个板块:代理主机拨号返回ip,代理池接受ip并记录然后提供给采集程序,统计代理主机的数量.

快速构建Python爬虫IP代理池服务

在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来.不过呢,闲暇时间手痒,所以就想利用一些免费的资源搞一个简单的代理池服务. 1.问题 代理IP从何而来? 刚自学爬虫的时候没有代理IP就去西刺.快代理之类有免费代理的网站去爬,还是有个别代理能用.当然,如果你有更好的代理接口也可以自己接入. 免费代理的采集也很简单,无非就是:访问页面页面 —> 正则/xpath提取

UA池和IP代理池使用

UA池:User-Agent池 - 作用:尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份. - 操作流程: 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件 代码展示 #导包 from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware import random #UA池代码的编写(单独给UA池封装一个下载中间件的一个类)