一个令人着迷的爬虫框架——Scrapy框架！

在平常的知识传播中，我经常遇到许多的小伙伴说，Python爬虫还厉害喔，我想学，或者是我已经初学了Python，但是爬虫还是没有接触，能教教我吗？看到小伙伴有如此热情，我决定来带大家探讨探讨Python爬虫！

在探讨爬虫之前，我们首先来带大家了解下 Scrapy 框架，我们先来解答三个问题：什么是 Scrapy 框架呢？它有什么作用呢？为什么需要使用它？（这个有基础的想必解答不难）

如果大家在学习Python的路上，或者打算学习Python需要学习资料，可以私信小编发送1314，小编将免费赠送大家学习资料喔！

Scrapy 是 Python 开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。

Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。

为什么需要使用它？Scrapy 是一个写好的框架，不用重复造轮子，scapy 底层是异步框架 twisted ，吞吐量高，并发是最大优势。

Scrapy 安装

我电脑上同时装了 py2 和 py3，在 py3 环境里安装 Scrapy，使用以下命令。

如果你的电脑只安装了一个 python 版本，直接使用 pip install xxx 即可。

如果上面方法安装失败的话就分下面两步骤安装：

1 首先安装 Twisted ，使用以下命令

命令安装报错的话就去对应网站选择对应版本下载 whl，我的 python3.6，系统是 64 位，所以我下载的是 Twisted?18.7.0?cp36?cp36m?win_amd64.whl。下载后使用 pip 命令安装 whl 文件。

2 安装 scrapy 框架

创建爬虫项目

创建储存 scrapy 文件夹 scrapypy3，cmd 进入到路径，用 scrapy startproject 命令新建项目。（温馨提示：代码显示不全的话向右轻轻滑动即可查看全部代码）

Scrapy 项目目录结构

新建的爬虫项目文件有以下部分组成，将整个文件在编辑器 Pycharm 中打开看得很明显，文件后面我做了中文解释。

创建项目参数

刚才用 scrapy startproject 创建了爬虫项目，创建的时候我们也可以加入一些参数，具体有哪些参数呢？我们可以在命令行通过 scrapy startproject -h查看，以下常见的命令给出了相应的中文注释。（温馨提示：代码显示不全的话向右轻轻滑动即可查看全部代码）

常用工具命令

Scrapy 中，工具命令分为两种，一种为全局命令，一种为项目命令。

全局命令

在不进入Scrapy 爬虫项目所在目录的情况下，运行 scrapy -h，在commands下会出现所有的全局命令。

项目命令

首先进入一个已经创建的 Scrapy 爬虫项目，运行 scrapy -h 显示项目中可用命令。在展示出来的命令中，包括了上面讲到的全局命令。全局命令既可以在非 Scrapy 爬虫项目文件夹中使用，同时也可以在 Scrapy 爬虫项目文件夹中使用，而 Scrapy 项目命令一般只能在 Scrapy 爬虫项目文件夹中使用。去掉全局命令，剩下的就是Scrapy项目命令。

所以，Scrapy 的项目命令主要有：bench、check、crawl、edit、genspider、list、parse。

这篇文章给大家讲了下 Scrapy 框架的安装和常用的命令，这只是初步了解，之后会在实战中使用，项目实战才是我们的最终目的。未完待续。。。

写在最后：

如果大家在学习Python的路上，或者打算学习Python需要学习资料，可以加群571799375，群里学习资料免费赠送大家学习资料喔！

本文来自网络，如有侵权，请联系小编删除！

原文地址：https://www.cnblogs.com/jiajia101/p/10238216.html

时间： 2024-10-15 00:45:42

一个令人着迷的爬虫框架——Scrapy框架！

Scrapy 安装

创建爬虫项目

Scrapy 项目目录结构

创建项目参数

常用工具命令

全局命令

项目命令

写在最后：

一个令人着迷的爬虫框架——Scrapy框架！的相关文章

Python爬虫进阶(Scrapy框架爬虫)

Python网络爬虫之Scrapy框架（CrawlSpider）

网络爬虫之scrapy框架详解,scrapy框架设置代理

爬虫学习 16.Python网络爬虫之Scrapy框架（CrawlSpider）

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

python爬虫之scrapy框架

Requests爬虫和scrapy框架多线程爬虫

爬虫之scrapy框架

18、python网路爬虫之Scrapy框架中的CrawlSpider详解