爬虫框架——Scrapy

一、Scrapy介绍

1、Scrapy是什么

　　Scrapy 是一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

2、何谓框架

　　所谓框架其实就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。
　　scrapy和requests、bs4的关系，可以做如下类比：

requests + bs4 => socket
scrapy框架 => django

　　Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发（基于Twisted实现单线程并发下载页面）。也具备解析下载内容功能、帮助实现“递归”、帮助完成数据持久化（数据写入硬盘或数据库）、还具备一些扩展性功能（自定义组件）。

二、Scrapy安装

1、Windows平台

1、安装wheel
    pip3 install wheel   # 安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs
2、下载twisted（Scrapy基于twisted框架）：
    http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    安装twisted:
    进入下载目录，执行：
    pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl
3、下载并安装pywin32：
    pip3 install pywin32
4、安装scrapy
    pip3 install scrapy

2、Linux平台

    pip3 install scrapy

原文地址：https://www.cnblogs.com/xiugeng/p/10035828.html

时间： 2024-10-01 23:05:21

爬虫框架——Scrapy

一、Scrapy介绍

1、Scrapy是什么

2、何谓框架

二、Scrapy安装

1、Windows平台

2、Linux平台

爬虫框架——Scrapy的相关文章

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

爬虫框架Scrapy

怎么在32位windows系统上搭建爬虫框架scrapy？

第三篇：爬虫框架 - Scrapy

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

Python爬虫框架Scrapy教程(1)—入门

Linux 安装python爬虫框架 scrapy

教你分分钟学会用python爬虫框架Scrapy爬取你想要的内容

分享《精通Python爬虫框架Scrapy》中文PDF+英文PDF+源代码

分享《精通Python爬虫框架Scrapy》+PDF+源码+迪米特里奥斯+李斌