一、Scrapy介绍
1、Scrapy是什么
Scrapy 是一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
2、何谓框架
所谓框架其实就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
scrapy和requests、bs4的关系,可以做如下类比:
requests + bs4 => socket
scrapy框架 => django
Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发(基于Twisted实现单线程并发下载页面)。也具备解析下载内容功能、帮助实现“递归”、帮助完成数据持久化(数据写入硬盘或数据库)、还具备一些扩展性功能(自定义组件)。
二、Scrapy安装
1、Windows平台
1、安装wheel
pip3 install wheel # 安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs
2、下载twisted(Scrapy基于twisted框架):
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
安装twisted:
进入下载目录,执行:
pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl
3、下载并安装pywin32:
pip3 install pywin32
4、安装scrapy
pip3 install scrapy
2、Linux平台
pip3 install scrapy
十、更多文档参考
Scrapy 0.25 文档
wupeiqi的Scrapy
爬虫框架:scrapy
原文地址:https://www.cnblogs.com/xiugeng/p/10035828.html
时间: 2024-10-01 23:05:21