基于scrapy-redis两种形式的分布式爬虫

redis分布式部署

1.scrapy框架是否可以自己实现分布式?

    - 不可以。原因有二。

      其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器)

      其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。(多台机器无法共享同一个管道)

2.基于scrapy-redis组件的分布式爬虫

- scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取。

- 实现方式:

1.基于该组件的RedisSpider类

2.基于该组件的RedisCrawlSpider类

3.分布式实现流程:上述两种不同方式的分布式实现流程是统一的

- 3.1 下载scrapy-redis组件:pip install scrapy-redis

- 3.2 redis配置文件的配置:

- 注释该行:bind 127.0.0.1,表示可以让其他ip访问redis

- 将yes该为no:protected-mode no,表示可以让其他ip操作redis

3.3 修改爬虫文件中的相关代码:

- 将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意:如果原始爬虫文件是基于Spider的,则应该将父类修改成RedisSpider,如果原始爬虫文件是基于CrawlSpider的,则应该将其父类修改成RedisCrawlSpider。

- 注释或者删除start_urls列表,切加入redis_key属性,属性值为scrpy-redis组件中调度器队列的名称

3.4 在配置文件中进行相关配置,开启使用scrapy-redis组件中封装好的管道

ITEM_PIPELINES = {
    ‘scrapy_redis.pipelines.RedisPipeline‘: 400
}

3.5 在配置文件中进行相关配置,开启使用scrapy-redis组件中封装好的调度器

# 使用scrapy-redis组件的去重队列
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 是否允许暂停
SCHEDULER_PERSIST = True

3.6 在配置文件中进行爬虫程序链接redis的配置:

REDIS_HOST = ‘redis服务的ip地址‘
REDIS_PORT = 6379
REDIS_ENCODING = ‘utf-8’
REDIS_PARAMS = {‘password’:’123456’}

3.7 开启redis服务器:redis-server 配置文件

3.8 开启redis客户端:redis-cli

3.9 运行爬虫文件:scrapy runspider SpiderFile

3.10 向调度器队列中扔入一个起始url(在redis客户端中操作):lpush redis_key属性值 起始url

1.基于该组件的RedisSpider类爬虫代码如下

数据:国产器械,数据条数10万条

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from scrapy_redis.spiders import RedisSpider
 4 from  redisSpiderPro.items import RedisspiderproItem
 5 class RedisspidertestSpider(RedisSpider):
 6     name = ‘redisSpiderTest‘
 7     # allowed_domains = [‘www.xxx.com‘]
 8     # start_urls = [‘http://www.xxx.com/‘]
 9
10     #调度器队列的名称
11     redis_key=‘data‘
12     url=‘http://db.pharmcube.com/database/cfda/detail/cfda_cn_instrument/‘
13     pageNum=1
14     def parse(self, response):
15                     num=response.xpath(‘/html/body/div/table/tbody/tr[1]/td[2]/text()‘).extract_first()
16         name=response.xpath(‘/html/body/div/table/tbody/tr[2]/td[2]/text()‘).extract_first()
17
18         item=RedisspiderproItem()
19         item[‘num‘]=num
20         item[‘name‘]=name
21         yield  item
22
23         if self.pageNum<=10000:
24             self.pageNum+=1
25             new_url=self.url+str(self.pageNum)
26             yield scrapy.Request(url=new_url,callback=self.parse)

爬虫代码

setting配置

 1 USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36‘
 2
 3 ROBOTSTXT_OBEY = False
 4
 5 #管道
 6 ITEM_PIPELINES = {
 7     ‘scrapy_redis.pipelines.RedisPipeline‘: 400
 8 }
 9
10 # 使用scrapy-redis组件的去重队列
11 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
12 # 使用scrapy-redis组件自己的调度器
13 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
14 # 是否允许暂停
15 SCHEDULER_PERSIST = True
16
17
18 #redis连接数据库的参数
19 REDIS_HOST = ‘192.168.19.38‘
20 REDIS_PORT = 6379
21 #编码格式
22 # REDIS_ENCODING = ‘utf-8’
23 #用户名密码
24 # REDIS_PARAMS = {‘password’:’123456’}

setting

2.基于该组件的RedisCrawlSpider类爬虫代码如下

数据 抽屉网:爬取段子

爬虫代码:

 1 import scrapy
 2 from scrapy.linkextractors import LinkExtractor
 3 from scrapy.spiders import CrawlSpider, Rule
 4 from  redisCrawlSpiderPro.items import RediscrawlspiderproItem
 5 from scrapy_redis.spiders import RedisCrawlSpider
 6
 7 class CrawlspiderSpider(RedisCrawlSpider):
 8     name = ‘CrawlSpider‘
 9     # allowed_domains = [‘www.xxx.com‘]
10     # start_urls = [‘http://www.xxx.com/‘]
11
12     redis_key=‘data‘
13     link=LinkExtractor(allow=r‘/r/scoff/hot/\d+‘)
14     rules = (
15         Rule(link, callback=‘parse_item‘, follow=True),
16     )
17
18     def parse_item(self, response):
19        div_list=response.xpath(‘//div[@id="content-list"]/div‘)
20        for div in div_list:
21            item=RediscrawlspiderproItem()
22            item[‘title‘] = div.xpath(‘./div[3]/div/a/text()‘).extract_first()
23            item[‘author‘] = div.xpath(‘./div[3]/div[2]/a[4]/b/text()‘).extract_first()
24            yield item

爬虫代码

原文地址:https://www.cnblogs.com/duanhaoxin/p/10138678.html

时间: 2024-08-01 07:32:01

基于scrapy-redis两种形式的分布式爬虫的相关文章

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫 redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url.(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储.(多台机器无法共享同一个管道) 2.基于scrapy-redis组件的分布式爬虫 ? - scrapy-re

17,基于scrapy-redis两种形式的分布式爬虫

redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url.(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储.(多台机器无法共享同一个管道) 2.基于scrapy-redis组件的分布式爬虫 - scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直

19.基于scrapy-redis两种形式的分布式爬虫

redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url.(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储.(多台机器无法共享同一个管道) 2.基于scrapy-redis组件的分布式爬虫 - scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直

C++:一般情况下,设计函数的形参只需要两种形式

C++:一般情况下,设计函数的形参只需要两种形式.一,是引用形参,例如 void function (int &p_para):二,是常量引用形参,例如 void function(const int &p_para). 它们的特点如下: # 引用形参适用于需要改变变量数据的情况,常量引用形参适用于不需要改变对象.变量数据的情况. # 引用形参需要对象.变量来传递值,常量引用形参则不需要,可以直接传递表达式或者函数返回值. 通过这两种方式可以涵盖所有可能需要的设计情况,而通过这种方式实现的

Redis两种持久化方式(RDB&amp;AOF)

爬虫和转载请注明原文地址;博客园蜗牛:http://www.cnblogs.com/tdws/p/5754706.html Redis所需内存 超过可用内存怎么办 Redis修改数据多线程并发—Redis并发锁 windows下redis基础操作与主从复制 从而 数据备份和读写分离 Redis两种持久化方式(RDB&AOF) Redis的持久化过程中并不需要我们开发人员过多的参与,我们要做的是什么呢?除了深入了解RDB和AOF的作用原理,剩下的就是根据实际情况来制定合适的策略了,再复杂一点,也就

MyBatis collection的两种形式——MyBatis学习笔记之九

与association一样,collection元素也有两种形式,现介绍如下: 一.嵌套的resultMap 实际上以前的示例使用的就是这种方法,今天介绍它的另一种写法.还是以教师映射为例,修改映射文件TeacherMapper.xml如下(点击此处进入嵌套resultMap形式的示例源码下载页面.注:本示例代码是在修改本系列的上篇博文示例代码的基础上完成的,用到了MapperScannerConfigurer和注解等知识.对这些知识不熟悉的读者,可参考上篇博文:http://legend20

include的两种形式与介绍

include的另种形式和区别先简单的说下include的两种形式:<% include file="" %>:为静态包含(加载)<jsp:include page="" flush="true" />:为动态包含(加载) 简单来解释一下静态包含和和动态包含:静态包含:JSP编译器编译的时候已经包含好相应的文件,生成一个java_servlet,对应的Servlet文件中已经包含了被包含的页面,然后javac编译成一个cl

C# 支持两种形式的字符串:规则字符串和逐字字符串(@字符串)

规则字符串由包含在双引号中的零个或多个字符组成(如 "hello"),并且可以包含简单转义序列(如表示制表符的 \t).十六进制转义序列和 Unicode 转义序列. 逐字字符串由 @ 字符后跟开始的双引号字符.零个或多个字符以及结束的双引号字符组成.一个简单的示例就是 @"hello".在逐字字符串中,分隔符之间的字符逐字解释,唯一的例外是"引号转义序列".具体说来,在逐字字符串中不处理简单转义序列以及十六进制 和 Unicode 转义序列.逐

爪哇国新游记之十二----线程创建的两种形式

public class Thread1 extends Thread{ public void run(){ int i=0; while(i<10){ i++; System.out.println(i); } } public static void main(String[] args){ Thread1 t=new Thread1(); t.start(); } } public class Thread2 implements Runnable{ @Override public v