scrapy框架之(CrawlSpider)

一.CrawlSpider简介

如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?

方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。

方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。

一.简介


  CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。


二.使用


  1.创建scrapy工程:scrapy startproject projectName


  2.创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com


    --此指令对比以前的指令多了 "-t crawl",表示创建的爬虫文件是基于CrawlSpider这个类的,而不再是Spider这个基类。


  3.观察生成的爬虫文件

  爬虫文件.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
#不再是引入spider,而是引入了crawlspider,还引入了LinkExtracor(连接提取器),Rule解析器

class ChoutiSpider(CrawlSpider):
    name = ‘chouti‘
    #allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://dig.chouti.com/r/scoff/hot/1‘]
  #allow后面跟着正则匹配,用正则去匹配符合的连接  #rule规则解析器则会去把提取器提取到的连接发起请求,并把获得的响应对象用回调函数去解析  #follow表示是否把连接解析器继续作用到提取到的url中(是否提取全站的url)
    rules = (
        Rule(LinkExtractor(allow=r‘Items/‘), callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        item = {}
        #item[‘domain_id‘] = response.xpath(‘//input[@id="sid"]/@value‘).get()
        #item[‘name‘] = response.xpath(‘//div[@id="name"]‘).get()
        #item[‘description‘] = response.xpath(‘//div[@id="description"]‘).get()
        return item

  案例一:(全站提取)

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):
    name = ‘chouti‘
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://dig.chouti.com/r/scoff/hot/1‘]
    #把这个单独写比较好看
    link=LinkExtractor(allow=r‘/r/scoff/hot/\d+‘)
    rules = (
        Rule(link,callback=‘parse_item‘, follow=False),
    )

    def parse_item(self, response):
        print(response)

#这样就可以迭代提取到我们想要的所有内容,因为其起始页的url为:https://dig.chouti.com/r/scoff/hot/1

  案例二:(第一页没有数字编号的)

class ChoutiSpider(CrawlSpider):    name = ‘chouti‘    # allowed_domains = [‘www.xxx.com‘]    start_urls = [‘https://www.qiushibaike.com/text/‘]    #把这个单独写比较好看

    link=LinkExtractor(allow=r‘/text/page/\d+/‘)    link1=LinkExtractor(allow=r‘/text/‘)    rules = (        Rule(link,callback=‘parse_item‘, follow=True),        Rule(link1, callback=‘parse_item‘, follow=True),    )

    def parse_item(self, response):        print(response)

#注意观察器其实url:
https://www.qiushibaike.com/text/#第一页没有数字表示

  案例三:(正匹配会有很多相似的,限定开头或者结尾)

class ChoutiSpider(CrawlSpider):
    name = ‘chouti‘
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘https://www.qiushibaike.com/pic/‘]
    # 把这个单独写比较好看
  #这边的?记得转义\  
    link = LinkExtractor(allow=r‘/pic/page/\d+\?s=‘)
    link1 = LinkExtractor(allow=r‘/pic/$‘)  #提取第一页这个匹配会有很多其他的干扰,这些并不是我们想要的,要限定结尾$
    rules = (
        Rule(link, callback=‘parse_item‘, follow=True),
        Rule(link1, callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        print(response)

  注:如果allow没有为空,那就是匹配网页中所有的url

原文地址:https://www.cnblogs.com/tjp40922/p/10463506.html

时间: 2024-08-01 05:28:48

scrapy框架之(CrawlSpider)的相关文章

Python网络爬虫之Scrapy框架(CrawlSpider)

目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用 爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) 提问:如果想要通过爬虫程序去爬取"糗百"全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效). CrawlSpider使

爬虫学习 16.Python网络爬虫之Scrapy框架(CrawlSpider)

爬虫学习 16.Python网络爬虫之Scrapy框架(CrawlSpider) 引入 提问:如果想要通过爬虫程序去爬取"糗百"全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效). 今日概要 CrawlSpider简介 CrawlSpider使用 基于CrawlSpider爬虫文件的创建 链接提取器 规则解析器 今日详

scrapy框架之CrawlSpider

提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效). 一,介绍 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能.其中最显著的功能就是”LinkExtractors链接提取器“.Spider是所有爬虫的基类

【Scrapy框架之CrawlSpider全站爬取】--2019-08-06 15:17:42

原创链接: http://106.13.73.98/__/144/ 起 提问: 如果想要快速爬取网站的全站数据,有几种实现方法? 基于Scrapy框架中 Spider 的递归爬取来实现(Request模块递归回调parse方法) 基于 CrawlSpider 的自动爬取来实现(更加高效简洁) ???????CrawlSpider 是 Spider 的一个子类,除了继承了 Spider 的特性和功能外,还派生了其自己独有的更加强大的特性和功能.其中最为显著的功能就是 LinkExtractors:

【Scrapy框架之CrawlSpider全站爬取】 𓄛

原文: http://blog.gqylpy.com/gqy/369 起 提问: 如果想要快速爬取网站的全站数据,有几种实现方法? 基于Scrapy框架中 Spider 的递归爬取来实现(Request模块递归回调parse方法) 基于 CrawlSpider 的自动爬取来实现(更加高效简洁) ???????CrawlSpider 是 Spider 的一个子类,除了继承了 Spider 的特性和功能外,还派生了其自己独有的更加强大的特性和功能.其中最为显著的功能就是 LinkExtractors

Scrapy框架——使用CrawlSpider爬取数据

引言 本篇介绍Crawlspider,相比于Spider,Crawlspider更适用于批量爬取网页 Crawlspider Crawlspider适用于对网站爬取批量网页,相对比Spider类,CrawSpider主要使用规则(rules)来提取链接,通过定义一组规则为跟踪链接提供了遍历的机制. Crawlspider 的强大体现在自动爬取页面所有符合规则的链接并深入下去! 全站数据爬取 编码流程 新建一个工程 cd 工程 创建爬虫文件: scrapy genspider -t crawl s

python爬虫入门(八)Scrapy框架之CrawlSpider类

CrawlSpider类 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合. CrawSpider源码详细解析 class CrawlSpider(S

scrapy框架(三)

scrapy框架(三) CrawlSpider类 创建CrawlSpider  # 创建项目后 $ scrapy genspider -t crawl spider_name website_domain ? url 就是你想要爬取的网址 注意:分析本地文件是一定要带上路径,scrapy shell默认当作url ? 介绍: CrawlSpider类继承自spider类 CrawlSpiders url规则 自动生成Request请求 Rule  Rule用来定义CrawlSpider的爬取规则

18、python网路爬虫之Scrapy框架中的CrawlSpider详解

CrawlSpider的引入: 提问:如果想要通过爬虫程序去爬取"糗百"全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效) CrawlSpider的简介: CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能.其中最显著的功能就是"