爬虫学习之第六章Scrapy-Redis分布式组件

第一节:redis数据库介绍

概述

redis是一种支持分布式的nosql数据库,他的数据是保存在内存中,同时redis可以定时把内存数据同步到磁盘,即可以将数据持久化,并且他比memcached支持更多的数据结构(string,list列表[队列和栈],set[集合],sorted set[有序集合],hash(hash表))。相关参考文档:http://redisdoc.com/index.html

redis使用场景:

  1. 登录会话存储:存储在redis中,与memcached相比,数据不会丢失。
  2. 排行版/计数器:比如一些秀场类的项目,经常会有一些前多少名的主播排名。还有一些文章阅读量的技术,或者新浪微博的点赞数等。
  3. 作为消息队列:比如celery就是使用redis作为中间人。
  4. 当前在线人数:还是之前的秀场例子,会显示当前系统有多少在线人数。
  5. 一些常用的数据缓存:比如我们的BBS论坛,板块不会经常变化的,但是每次访问首页都要从mysql中获取,可以在redis中缓存起来,不用每次请求数据库。
  6. 把前200篇文章缓存或者评论缓存:一般用户浏览网站,只会浏览前面一部分文章或者评论,那么可以把前面200篇文章和对应的评论缓存起来。用户访问超过的,就访问数据库,并且以后文章超过200篇,则把之前的文章删除。
  7. 好友关系:微博的好友关系使用redis实现。
  8. 发布和订阅功能:可以用来做聊天软件。

redismemcached的比较:

  memcached redis
类型 纯内存数据库 内存磁盘同步数据库
数据类型 在定义value时就要固定数据类型 不需要
虚拟内存 不支持 支持
过期策略 支持 支持
存储数据安全 不支持 可以将数据同步到dump.db中
灾难恢复 不支持 可以将磁盘中的数据恢复到内存中
分布式 支持 主从同步
订阅与发布 不支持 支持

redisubuntu系统中的安装与启动

  1. 安装:

     sudo apt-get install redis-server
    
  2. 卸载:
     sudo apt-get purge --auto-remove redis-server
    
  3. 启动:redis安装后,默认会自动启动,可以通过以下命令查看:
     ps aux|grep redis
    

    如果想自己手动启动,可以通过以下命令进行启动:

     sudo service redis-server start
    
  4. 停止:
     sudo service redis-server stop
    

redis在windows系统中的安装与启动:

  1. 下载:redis官方是不支持windows操作系统的。但是微软的开源部门将redis移植到了windows上。因此下载地址不是在redis官网上。而是在github上:https://github.com/MicrosoftArchive/redis/releases。
  2. 安装:点击一顿下一步安装就可以了。
  3. 运行:进入到redis安装所在的路径然后执行redis-server.exe redis.windows.conf就可以运行了。
  4. 连接:redismysql以及mongo是一样的,都提供了一个客户端进行连接。输入命令redis-cli(前提是redis安装路径已经加入到环境变量中了)就可以连接到redis服务器了。

其他机器访问本机redis服务器:

想要让其他机器访问本机的redis服务器。那么要修改redis.conf的配置文件,将bind改成bind [自己的ip地址或者0.0.0.0],其他机器才能访问。
注意:bind绑定的是本机网卡的ip地址,而不是想让其他机器连接的ip地址。如果有多块网卡,那么可以绑定多个网卡的ip地址。如果绑定到额是0.0.0.0,那么意味着其他机器可以通过本机所有的ip地址进行访问。

redis的操作

redis的操作可以用两种方式,第一种方式采用redis-cli,第二种方式采用编程语言,比如PythonPHPJAVA等。

  1. 使用redis-cliredis进行字符串操作:
  2. 启动redis
      sudo service redis-server start
    
  3. 连接上redis-server
      redis-cli -h [ip] -p [端口]
    
  4. 添加:
      set key value
      如:
      set username xiaotuo
    

    将字符串值value关联到key。如果key已经持有其他值,set命令就覆写旧值,无视其类型。并且默认的过期时间是永久,即永远不会过期。

  5. 删除:
      del key
      如:
      del username
    
  6. 设置过期时间:
      expire key timeout(单位为秒)
    

    也可以在设置值的时候,一同指定过期时间:

      set key value EX timeout
      或:
      setex key timeout value
    
  7. 查看过期时间:
      ttl key
      如:
      ttl username
    
  8. 查看当前redis中的所有key
      keys *
    
  9. 列表操作:
    • 在列表左边添加元素:

        lpush key value
      

      将值value插入到列表key的表头。如果key不存在,一个空列表会被创建并执行lpush操作。当key存在但不是列表类型时,将返回一个错误。

    • 在列表右边添加元素:
        rpush key value
      

      将值value插入到列表key的表尾。如果key不存在,一个空列表会被创建并执行RPUSH操作。当key存在但不是列表类型时,返回一个错误。

    • 查看列表中的元素:
        lrange key start stop
      

      返回列表key中指定区间内的元素,区间以偏移量startstop指定,如果要左边的第一个到最后的一个lrange key 0 -1

    • 移除列表中的元素:
      • 移除并返回列表key的头元素:

          lpop key
        
      • 移除并返回列表的尾元素:
        rpop key
        
      • 移除并返回列表key的中间元素:
          lrem key count value
        

        将删除key这个列表中,count个值为value的元素。

    • 指定返回第几个元素:
        lindex key index
      

      将返回key这个列表中,索引为index的这个元素。

    • 获取列表中的元素个数:
        llen key
        如:
        llen languages
      
    • 删除指定的元素:
        lrem key count value
        如:
        lrem languages 0 php
      

      根据参数 count 的值,移除列表中与参数 value 相等的元素。count的值可以是以下几种:

      • count > 0:从表头开始向表尾搜索,移除与value相等的元素,数量为count
      • count < 0:从表尾开始向表头搜索,移除与 value相等的元素,数量为count的绝对值。
      • count = 0:移除表中所有与value 相等的值。
  10. set集合的操作:
    • 添加元素:

        sadd set value1 value2....
        如:
        sadd team xiaotuo datuo
      
    • 查看元素:
        smembers set
        如:
        smembers team
      
    • 移除元素:
        srem set member...
        如:
        srem team xiaotuo datuo
      
    • 查看集合中的元素个数:
        scard set
        如:
        scard team1
      
    • 获取多个集合的交集:
        sinter set1 set2
        如:
        sinter team1 team2
      
    • 获取多个集合的并集:
        sunion set1 set2
        如:
        sunion team1 team2
      
    • 获取多个集合的差集:
      sdiff set1 set2
      如:
      sdiff team1 team2
      
  11. hash哈希操作:
    • 添加一个新值:

        hset key field value
        如:
        hset website baidu baidu.com
      

      将哈希表key中的域field的值设为value
      如果key不存在,一个新的哈希表被创建并进行 HSET操作。如果域 field已经存在于哈希表中,旧值将被覆盖。

    • 获取哈希中的field对应的值:
        hget key field
        如:
        hget website baidu
      
    • 删除field中的某个field
        hdel key field
        如:
        hdel website baidu
      
    • 获取某个哈希中所有的fieldvalue
        hgetall key
        如:
        hgetall website
      
    • 获取某个哈希中所有的field
        hkeys key
        如:
        hkeys website
      
    • 获取某个哈希中所有的值:
      hvals key
      如:
      hvals website
      
    • 判断哈希中是否存在某个field
      hexists key field
      如:
      hexists website baidu
      
    • 获取哈希中总共的键值对:
      hlen field
      如:
      hlen website
      
  12. 事务操作:Redis事务可以一次执行多个命令,事务具有以下特征:
    • 隔离操作:事务中的所有命令都会序列化、按顺序地执行,不会被其他命令打扰。
    • 原子操作:事务中的命令要么全部被执行,要么全部都不执行。
    • 开启一个事务:
        multi
      

      以后执行的所有命令,都在这个事务中执行的。

    • 执行事务:
        exec
      

      会将在multiexec中的操作一并提交。

    • 取消事务:
        discard
      

      会将multi后的所有命令取消。

    • 监视一个或者多个key
        watch key...
      

      监视一个(或多个)key,如果在事务执行之前这个(或这些) key被其他命令所改动,那么事务将被打断。

    • 取消所有key的监视:
        unwatch
      
  13. 发布/订阅操作:
    • 给某个频道发布消息:

        publish channel message
      
    • 订阅某个频道的消息:
        subscribe channel    

第二节:Scrapy-Redis分布式爬虫组件

Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy-Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,使得爬虫可以进行分布式。可以充分的利用资源(多个ip、更多带宽、同步爬取)来提高爬虫的爬行效率。

分布式爬虫的优点:

  1. 可以充分利用多台机器的带宽。
  2. 可以充分利用多台机器的ip地址。
  3. 多台机器做,爬取效率更高。

分布式爬虫必须要解决的问题:

  1. 分布式爬虫是好几台机器在同时运行,如何保证不同的机器爬取页面的时候不会出现重复爬取的问题。
  2. 同样,分布式爬虫在不同的机器上运行,在把数据爬完后如何保证保存在同一个地方。

安装:

通过pip install scrapy-redis即可安装。

Scrapy-Redis架构:

Scrapy架构图:

Scrapy-Redis架构图:

分布式爬虫架构图:

以上两个图片对比我们可以发现。Item Pipeline在接收到数据后发送给了RedisScheduler调度器调度数据也是从Redis中来的、并且其实数据去重也是在Redis中做的。

编写Scrapy-Redis分布式爬虫:

要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了:

  1. 将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider;或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider
  2. 将爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url,就是在redis中通过这个发送出去的。
  3. 在配置文件中增加如下配置:
    # Scrapy-Redis相关配置
    # 确保request存储到redis中
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"

    # 确保所有爬虫共享相同的去重指纹
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

    # 设置redis为item pipeline
    ITEM_PIPELINES = {
        ‘scrapy_redis.pipelines.RedisPipeline‘: 300
    }

    # 在redis中保持scrapy-redis用到的队列,不会清理redis中的队列,从而可以实现暂停和恢复的功能。
    SCHEDULER_PERSIST = True

    # 设置连接redis信息
    REDIS_HOST = ‘127.0.0.1‘
    REDIS_PORT = 6379
  1. 运行爬虫:

    1. 在爬虫服务器上。进入爬虫文件所在的路径,然后输入命令:scrapy runspider [爬虫名字]
    2. Redis服务器上,推入一个开始的url链接:redis-cli> lpush [redis_key] start_url开始爬取。

原文地址:https://www.cnblogs.com/lcy0302/p/11063564.html

时间: 2024-11-17 20:05:23

爬虫学习之第六章Scrapy-Redis分布式组件的相关文章

CCNA学习指南 第六章 下载

本章讲述静态路由和动态路由的配置.动态路由协议涉及RIPv1.RIPv2和IGRP,这三个动态路由协议都属于距离矢量型路由协议. CCNA学习指南 第六章 下载

运维学python之爬虫高级篇(六)scrapy模拟登陆

上一篇介绍了如何爬取豆瓣TOP250的相关内容,今天我们来模拟登陆GitHub. 1 环境配置 语言:Python 3.6.1 IDE: Pycharm 浏览器:firefox 抓包工具:fiddler 爬虫框架:Scrapy 1.5.0 操作系统:Windows 10 家庭中文版 2 爬取前分析 分析登陆提交信息分析登陆信息我使用的是fiddler,fiddler的使用方法就不作介绍了,大家可以自行搜索,首先我们打开github的登陆页面,输入用户名密码,提交查看fiddler获取的信息,我这

C++ Primer Plus学习:第六章

C++入门第六章:分支语句和逻辑运算符 if语句 语法: if (test-condition) statement if else语句 if (test-condition) statement1 else statement2 if else if else语句 if (test-condition1) statement1 else if (test-condition2) statement2 else statement3 2 逻辑表达式 逻辑OR运算符:|| 当两个条件中有一个或全部

Android学习笔记—第六章 Asynctask异步加载

第六章 Asynctask 异步加载 1.好处:不需要创建线程就可管理线程 缺点:步骤多 2.步骤: (1)创建一个类继承Asynctask<xxx,xxx,xxx>; 三个泛型参数: 第一个:决定了execute()方法的传入值类型,决定了doInBackground()方法的传入值类型 第二个:决定了publishProgress()方法的传入值类型,决定了onProgressUpdate()方法的传入值类型 第三个:决定了doInBackground()方法的返回值类型,决定了onPos

Java学习笔记—第六章 流程控制语句

第六章  熟悉Java的流程控制语句 Java的程序流程控制分为顺序结构.选择结构.循环结构和跳转语句. 顺序结构:按照程序代码自上而下执行,直到程序结束,中间没有任何判断和跳转. 选择结构(分支结构):判断给定的条件,根据判断结果控制程序的流程.包括if语句和switch语句. 2.1 if语句:通过判断给定表达式的值来决定程序的流程.常见if语句的形式有三种: (1)if(expression){ statement: } (2)if(expression){ statement; }els

小甲鱼零基础汇编语言学习笔记第六章之包含多个段的程序

在前面的几个章节中,我们的程序都是只有一个代码段,本章我们开始学习如何编写包含多个段的程序. 1.在代码段中使用数据 首先考虑这样一个问题,计算以下8个数据的和,结果存放在ax寄存器中: 0123H,0456H,0789H,0abcH,0defH,0fedH,0cbaH,0987H 在前面的课程中,我们都是累加某些内存单元中的数据,并不关心数据本身,可现在我们要累加就是已经给定了数值的数据. 代码如下: 1 assume cs:codesg 2 codesg segment 3 dw 0123H

Python爬虫学习(三)使用Scrapy库

(一)Scrapy库概述 1,安装:pip  install  scrapy失败: 运行D:\Python\Python36\python.exe -m pip install --upgrade pip命令升级pip命令失败: 修改Python36文件的权限:https://www.cnblogs.com/liaojiafa/p/5100550.html 安装:D:\Python\Python36\python.exe -m pip install wheel 安装:D:\Python\Pyt

构建之法学习(第六章 敏捷流程)

第6章  敏捷流程 本章主要介绍了敏捷流程及其原则,Backlog.Burn-down.Sprint.Scrum方法论.以及什么时候选择敏捷的开发方法,什么时候选择其他方法. 1.敏捷的流程 定义:"敏捷流程"是一系列价值观和方法论的集合. 现有的做法 敏捷的做法 流程和工具 个人和交流 完备的文档 可用的软件 为合同谈判 与客户合作 执行原定计划 响应变化 2.敏捷开发原则 尽早并持续地交付有价值的软件以满足顾客需求 敏捷流程欢迎需求的变化,并利用这种变化来提高用户的竞争优势 经常发

Python学习系列----第六章 数据结构

本章主要讲的是python中重要的四种数据结构,分别是列表.元组.字典和集合. 6.1 列表 list 是处理一组有序项目的数据结构,即你可以在一个列表中存储一个序列的项目.列表中的项目应该包括在方括号中,这样 Python 就知道你是在指明一个列表.一旦你创建了一个列表,你可以添加.删除或是搜索列表中的项目. 6.2 元组 元组用来将多样的对象集合到一起.元组和列表十分类似,只不过元组和字符串一样是不可变的即你不能修改元组.元组通过圆括号中用逗号分割的项目定义. 含有 0个或 1个项目的元组: