python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

CrawlSpider实现的全站数据的爬取

新建一个工程
cd 工程
创建爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com
连接提取器LinkExtractor
- 可以根据指定的规则对指定的连接进行提取
  - 提取的规则就是构造方法中的allow（‘正则表达式’）参数决定
规则解析器Rule
- 可以将将连接提取器提取到的连接进行请求发送，可以根据指定的规则（callback）对请求到的数据进行解析
follow=True:将连接提取器继续作用到连接提取器提取到的连接所对应的页面源码中

分布式

实现方式：scrapy+scrapy_redis组件实现的分布式。scrapy+redis
原生的scrapy是不可以实现分布式的！！！
什么是分布式
- 需要搭建一个由n台电脑组成的机群，然后在每一台电脑中执行同一组程序，让其对同一个网络资源
  进行联合且分布的数据爬取。
为什么scrapy不可以实现分布式
- 调度器不可以被共享
- 管道不可以被共享
scrapy-reids组件的作用是什么
提供可以被共享的管道和调度器
分布式的实现流程
- 环境的安装：pip install scrapy-redis
- 创建工程
- cd 工程
- 创建爬虫文件：
  - 基于Spider
  - 基于CrawlSpider
- 修改爬虫文件：
  - 导报：
    from scrapy_redis.spiders import RedisCrawlSpider#基于crawlSpider爬虫文件
    from scrapy_redis.spiders import RedisSpider #基于Spider爬虫文件
  - 将当前爬虫类的父类修改为RedisCrawlSpider
  - 删除allowed_domains和start_urls
  - 添加一个redis_key = ‘xxx’属性，表示的是调度器队列的名称、
  - 根据常规形式编写爬虫文件后续的代码
- 修改settings配置文件
  - 指定管道
    ITEM_PIPELINES = {
    ‘scrapy_redis.pipelines.RedisPipeline‘: 400
    }
  - 指定调度器
    
    增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
    
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    
    使用scrapy-redis组件自己的调度器
    
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    
    配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
    
    SCHEDULER_PERSIST = True
  - 指定redis数据库
    REDIS_HOST = ‘192.168.13.254‘
    REDIS_PORT = 6379
- 修改redis的配置文件redis.windows.conf
  - 关闭默认绑定
    - 56行：#bind 127.0.0.1
  - 关闭保护模式
    - 75行：protected-mode no
- 启动redis的服务端（携带配置文件）和客户端
- 启动分布式的程序：
  - scrapy runspider xxx.py
- 向调度器的队列中扔入一个起始的url
  - 队列是存在于redis中
  - redis的客户端中：lpush sun www.xxx.com
- 在redis中就可以查看爬取到的数据

增量式

概念：监测
核心技术：去重
适合使用增量式的网站：
- 基于深度爬取
  - 对爬取过的页面的url进行一个记录（记录表）
- 基于非深度爬取
  - 记录表：爬取过的数据对应的数据指纹
    - 数据指纹：就是原始数据的一组唯一标识
所谓的记录表是以怎样的形式存在于哪？
- redis的set充当记录表

反爬机制

robots
UA伪装
图片懒加载
验证码
cookie
动态加载的数据
动态变化的请求参数
js加密
js混淆
代理

原文地址：https://www.cnblogs.com/dengl/p/11681829.html

时间： 2024-11-05 21:45:11

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制的相关文章

爬虫 + 数据分析 - 7 CrawlSpider(全站爬取), 分布式, 增量式爬虫

一.全站爬取(CrawlSpider) 1.基本概念作用:就是用于进行全站数据的爬取 - CrawlSpider就是Spider的一个子类 - 如何新建一个基于CrawlSpider的爬虫文件 - scrapy genspider -t crawl xxx www.xxx.com - LinkExtractor连接提取器:根据指定规则(正则)进行连接的提取 - Rule规则解析器:将链接提取器提取到的链接进行请求发送,然后对获取的页面数据进行指定规则(callback)的解析 - 一个链接提

python爬虫入门之移动端数据的爬取

第七章移动端数据的爬取基于某一款抓包工具 : fiddler ,青花瓷 ,miteproxy 7.1 fiddler 基本配置 7.1.1fiddler简介和安装什么是Fiddler? Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 . 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据.设置断点.调试web应用.修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器. Fiddler

Python 爬虫工程师必学 App数据抓取实战

第1章课程介绍介绍课程目标.通过课程能学习到的内容.学会这些技能能做什么,对公司业务有哪些帮助,对个人有哪些帮助.介绍目前app数据抓取有哪些困难,面临的挑战,本实战课程会利用哪些工具来解决这些问题,以及本实战课程的特点 ... 1-1 python爬虫工程师必备技能--App数据抓取实战课程导学第2章 windows下搭建开发环境介绍项目开发需要安装的开发软件,讲解了安卓模拟器对比以及夜神安卓模拟器安装.介绍.简单使用和Genymotion安卓模拟器简单分析介绍App应用抓包工具对比以及f

Python爬虫工程师必学——App数据抓取实战

Python爬虫工程师必学 App数据抓取实战爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.主要讲解如何用python实现App数据抓取数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元.数据去重可以有效避免资源的浪费,所以数据去重至关重要数据去重数据去重可以从两个节点入手:一个是URL去重.即直接筛选掉重复的URL:另一个是数据库去重.即利用数据库的一些特性筛选重复的数据. def process_spider_

python爬取数据被限制？一招教你伪造反爬技术！

1.Headers限制这应该是最常见的,最基本的反爬虫手段,主要是初步判断你是否是真实的浏览器在操作. 这个一般很好解决,把浏览器中的Headers信息复制上去就OK了. 值得注意的是,很多网站只需要userAgent信息就可以通过,但是有的网站还需要验证一些其他的信息,比如知乎,有一些页面还需要 authorization 的信息.所以需要加哪些Headers,还需要尝试,可能还需要Referer.Accept-encoding等信息. 2.IP限制限制IP也是很多网站反爬虫的初衷,有些人

Python爬虫收集今日热榜数据：聚合全网热点排行榜

主要使用request库和beautifulSoup库爬取今日热榜的数据. 具体代码实现: 1 import requests 2 from bs4 import BeautifulSoup 3 import time 4 import pandas 5 import re 6 7 def get_html(url): 8 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36

爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 示例: # cnblogs_crawl/cnblogs_crawl/spiders/cnblogs.py import scrapy from cnblogs_crawl.items import CnblogsCrawlItem from scrapy.http import Request class

python爬虫：使用urllib.request和BeautifulSoup抓取新浪新闻标题、链接和主要内容

案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/china/' web_data = requests.get(url) web_data.encoding = 'utf-8' soup = BeautifulSoup(web_data.text,'

python爬虫学习第一章

html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,big,cite,code,del,dfn,em,img,ins,kbd,q,s,samp,small,strike,strong,sub,sup,tt,var,b,u,i,center,dl,dt,dd,ol,ul,li,fieldset,form,label,legend,table,caption

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

CrawlSpider实现的全站数据的爬取

分布式

增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

使用scrapy-redis组件自己的调度器

增量式

反爬机制

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制的相关文章