如何提高scrapy的爬取效率

提高scrapy的爬取效率

增加并发：
    默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。

降低日志级别：
    在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘INFO’

禁止cookie：
    如果不是真的需要cookie，则在scrapy爬取数据时可以进制cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：COOKIES_ENABLED = False

禁止重试：
    对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：RETRY_ENABLED = False

减少下载超时：
    如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s

配置文件：

USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36‘

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 100
COOKIES_ENABLED = False
LOG_LEVEL = ‘ERROR‘
RETRY_ENABLED = False
DOWNLOAD_TIMEOUT = 3
# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16
DOWNLOAD_DELAY = 3

原文地址：https://www.cnblogs.com/zwq-/p/10592190.html

时间： 2025-01-08 10:53:58

如何提高scrapy的爬取效率的相关文章

提高scrapy的爬取效率

增加并发: 默认scrapy开启的线程数为32个,可以适当进行增加,在seeting配置文件中修改councurrent_requests设置为100 降低日志等级: 在运行scrapy运行时,会有大量日志输出,为了减少cpu的使用率,可将日志等级设置为log输出设置为error或者info级别禁用cookie: 如果不是真的需要使用cookie,可以直接禁用cookie,提升爬取效率.cookie_enabled=false 禁止重试: 对失败的HTTP请求重新请求会减慢爬取速度,可以禁止重

scrapy请求传参，提高爬取效率，fake-useragent

scrapy请求传参 """ # 1 传参 :yield Request(url,callback=self.parser_detail,meta={'item':item}) # 2 取参:response.meta.get('item') """ 提高爬取效率的方式 """ - 在配置文件中进行相关的配置即可:(默认还有一套setting) #1 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增

爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 示例: # cnblogs_crawl/cnblogs_crawl/spiders/cnblogs.py import scrapy from cnblogs_crawl.items import CnblogsCrawlItem from scrapy.http import Request class

如何提高scrapy的爬取效率

如何提高scrapy的爬取效率的相关文章

提高scrapy的爬取效率

scrapy请求传参，提高爬取效率，fake-useragent

爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考

提高Scrapy爬取效率

python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件

selenium+scrapy完成爬取特定的知乎界面，比如我爬取的就是搜索“”“某某某东西”

Scrapy将爬取的段落整合为字符串

03_使用scrapy框架爬取豆瓣电影TOP250

爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式