17，基于scrapy-redis两种形式的分布式爬虫

redis分布式部署

1.scrapy框架是否可以自己实现分布式？

　　　　- 不可以。原因有二。

　　　　　　其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）

　　　　　　其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）

2.基于scrapy-redis组件的分布式爬虫

- scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。

- 实现方式：

1.基于该组件的RedisSpider类

2.基于该组件的RedisCrawlSpider类

3.分布式爬虫实现流程：上述两种不同方式的分布式实现流程是统一的

- 3.1 下载scrapy-redis组件：pip install scrapy-redis

- 3.2 创建项目

　　 - 3.3 创建爬虫文件：RedisCrawlSpider / RedisSpider　　　　

　　scrapy genspider -t crawl xxx www.xxx.com

　　 - 3.4 对爬虫文件中的相关属性进行修改:　　

　　 - 导包:from scrapy_redis.spiders import RedisCrawlSpider
 　　- 将当前爬虫文件的父类设置成RedisCrawlSpider
 　　- 将起始url列表替换成redis_key = ‘xxx‘(调度器队列的名称)

　　　- 3.5 在配置文件中进行配置:　　

　　 - 使用组件中封装好的可以被共享的管道类:
    　　  ITEM_PIPELINES = {
        　　‘scrapy_redis.pipelines.RedisPipeline‘: 400
         }
　　 - 配置调度器(使用组件中封装好的可以被共享的调度器)
      　　# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
      　　DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
      　　# 使用scrapy-redis组件自己的调度器
      　　SCHEDULER = "scrapy_redis.scheduler.Scheduler"
      　　# 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
      　　SCHEDULER_PERSIST = True

 　　- 指定存储数据的redis:
       　　REDIS_HOST = ‘redis服务的ip地址‘
       　　REDIS_PORT = 6379

　　 - 配置redis数据库的配置文件
    　　　 - 取消保护模式:protected-mode no  # 表示可以让其他ip操作redis
   　　 　 - bind绑定: #bind 127.0.0.1      # 表示可以让其他ip访问redis
　　　　　　- REDIS_ENCODING = ‘utf-8’
　　　　　　- REDIS_PARAMS = {‘password’:’123456’}
 　　- 启动redis

　- 3.6 执行分布式程序

　　scrapy runspider xxx.py

　 - 3.7 向调度器队列中仍入一个起始url:

在redis-cli中执行: lpush redis_key属性值 起始url

原文地址：https://www.cnblogs.com/feifeifeisir/p/10485779.html

时间： 2024-10-28 08:10:21

17，基于scrapy-redis两种形式的分布式爬虫的相关文章

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫 redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url.(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储.(多台机器无法共享同一个管道) 2.基于scrapy-redis组件的分布式爬虫 ? - scrapy-re

基于scrapy-redis两种形式的分布式爬虫

redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url.(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储.(多台机器无法共享同一个管道) 2.基于scrapy-redis组件的分布式爬虫 - scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直

19.基于scrapy-redis两种形式的分布式爬虫

C++：一般情况下，设计函数的形参只需要两种形式

C++:一般情况下,设计函数的形参只需要两种形式.一,是引用形参,例如 void function (int &p_para):二,是常量引用形参,例如 void function(const int &p_para). 它们的特点如下: # 引用形参适用于需要改变变量数据的情况,常量引用形参适用于不需要改变对象.变量数据的情况. # 引用形参需要对象.变量来传递值,常量引用形参则不需要,可以直接传递表达式或者函数返回值. 通过这两种方式可以涵盖所有可能需要的设计情况,而通过这种方式实现的

Redis两种持久化方式(RDB&AOF)

爬虫和转载请注明原文地址;博客园蜗牛:http://www.cnblogs.com/tdws/p/5754706.html Redis所需内存超过可用内存怎么办 Redis修改数据多线程并发—Redis并发锁 windows下redis基础操作与主从复制从而数据备份和读写分离 Redis两种持久化方式(RDB&AOF) Redis的持久化过程中并不需要我们开发人员过多的参与,我们要做的是什么呢?除了深入了解RDB和AOF的作用原理,剩下的就是根据实际情况来制定合适的策略了,再复杂一点,也就

MyBatis collection的两种形式——MyBatis学习笔记之九

与association一样,collection元素也有两种形式,现介绍如下: 一.嵌套的resultMap 实际上以前的示例使用的就是这种方法,今天介绍它的另一种写法.还是以教师映射为例,修改映射文件TeacherMapper.xml如下(点击此处进入嵌套resultMap形式的示例源码下载页面.注:本示例代码是在修改本系列的上篇博文示例代码的基础上完成的,用到了MapperScannerConfigurer和注解等知识.对这些知识不熟悉的读者,可参考上篇博文:http://legend20

include的两种形式与介绍

include的另种形式和区别先简单的说下include的两种形式:<% include file="" %>:为静态包含(加载)<jsp:include page="" flush="true" />:为动态包含(加载) 简单来解释一下静态包含和和动态包含:静态包含:JSP编译器编译的时候已经包含好相应的文件,生成一个java_servlet,对应的Servlet文件中已经包含了被包含的页面,然后javac编译成一个cl

C# 支持两种形式的字符串：规则字符串和逐字字符串(@字符串)

规则字符串由包含在双引号中的零个或多个字符组成(如 "hello"),并且可以包含简单转义序列(如表示制表符的 \t).十六进制转义序列和 Unicode 转义序列. 逐字字符串由 @ 字符后跟开始的双引号字符.零个或多个字符以及结束的双引号字符组成.一个简单的示例就是 @"hello".在逐字字符串中,分隔符之间的字符逐字解释,唯一的例外是"引号转义序列".具体说来,在逐字字符串中不处理简单转义序列以及十六进制和 Unicode 转义序列.逐

爪哇国新游记之十二----线程创建的两种形式

public class Thread1 extends Thread{ public void run(){ int i=0; while(i<10){ i++; System.out.println(i); } } public static void main(String[] args){ Thread1 t=new Thread1(); t.start(); } } public class Thread2 implements Runnable{ @Override public v