Scrapy命令行工具简介

Windows 10家庭中文版,Python 3.6.4,virtualenv 16.0.0,Scrapy 1.5.0,

在最初使用Scrapy时,使用编辑器或IDE手动编写模块来创建爬虫(Spider)程序,然后使用scrapy crawl命令执行Spider。

这种方式很初级、繁琐,不适合更大型的项目。

很好的是,Scrapy提供了 命令行工具(Command line tool),通过这套工具,开发者可以轻松建立 Scrapy项目,而不仅仅是一个一个的Spider程序。

初见Scrapy命令行工具

先说几个使用过的Scrapy命令行工具中的命令:

-scrapy startproject

创建一个新的爬虫项目,语法如下:

scrapy startproject <project_name> [project_dir]

-scrapy genspider

当前目录下创建一个爬虫程序(重名了会怎样?待试验),语法如下:

scrapy genspider [-t template] <name> <domain>

其中,template可以为basic、crawl、csvfeed、xmlfeed,默认是basic,其它三个尚未用过。

爬虫程序的name需要是一个合法的Python标识符(说法不太准确,需要更正),domain是需要爬取的网址的域名,会出现在爬虫的allowed_domains属性中,还会影响到爬虫的start_urls属性。

注意:domain中不能有http://、https://,仅仅是域名,不包含协议部分(犯过错误)。

疑问:domain是否可以设置多个呢?(需验证)

下面是第一次创建Spider时犯错了:

下图的start_urls中以两个http://开头!

执行爬虫程序时发生DNSLookupError!

注意,默认是给domain添加http://,那么,https网站还得手动更改?

更正代码后——删除allowed_domains和start_urls中多余的http://,爬虫程序可以正常执行。

-scrapy runspider

在没有使用scrapy startproject之前,自己写一个爬虫程序——没有项目的概念,此时,使用runspider命令来执行,因此,此命令时全局的(Global)。

语法如下:参数是 Python文件

scrapy runspider <spider_file.py>

-scrapy crawl

在创建的Scrapy项目中执行爬虫程序,依托于项目,此命令并非全局的。

语法如下:参数是 爬虫项目 内的 爬虫的 name,即在genspider时使用的name。

scrapy crawl <spider>

之前还会把runspider和crawl搞混,现在不会了。

----

上面就是几个自己常用的命令,本文后面会对其它命令进行简单介绍。

Scrapy的命令行工具官文

Scrapy命令行工具运行机制

Scrapy命令行工具运行时,会寻找一个配置文件,此文件命名为scrapy.cfg。在使用startproject建立爬虫项目时,此文件出现在爬虫项目的根目录下。

不过,scrapy.cfg不仅仅会出现在这里,见官文的截图(不再赘述):

对于1,但孤的Windows系统没有c:scrapy目录,更没有下面的scrapy.cfg了,需要自己建立吗?

对于2,也没有在用户根目下发现.scrapy.cfg文件;

看来,只有3——Scrapy项目的根目录下的scrapy.cfg是有效的了。

除了配置文件外,Scrapy命令行工具还可以下面三个环境变量配合使用:

-SCRAPY_SETTINGS_MODULE

-SCRAPY_PROJECT

-SCRAPY_PYTHON_SHELL

默认是打开标准的Python控制台(配置值为python,),可以将其配置为ipython(Scrapy推荐)、bpython,代表其它两个Python版本。

scrapy项目的默认结果如下(截图自官文的Tutorial文档):

其中,scrapy.cfg文件的内容格式如下:

[settings]
default = myproject.settings

上面的myproject表示项目名称,在上图的tutorial项目中,其为tutorial。这句表示,配置默认是tutorial目录下的settings.py文件的配置(请参考官文Settings)。

scrapy命令行工具用法

-直接输入scrapy 或 输入scrapy -h,显示scrapy的用法信息;

-输入scrayp <command> -h,显示子命令的用法信息;

-命令分为两种:项目命令(Project-specific commands)、全局命令(Global commands),前者只能在Scrapy项目中使用(有效),后者无论在哪里使用都有效。需要注意的是,某些命令在项目外执行和项目里面执行时是有区别的,比如,全局命令fetch,(省略若干字,还没弄清楚,请参考官网先)。

-全局命令 如下

startproject, genspider, settings, runspider, shell, fetch, view, version

-项目命令 如下

crawl, check, list, edit, parse, bench

更多Scrapy命令介绍

全局命令

-settings

获取Scrapy的配置,语法:

scrapy settings [options]

示例见官文。

-shell

重要!

语法如下:

scrapy shell [url]

基于参数url打开一个Scrapy shell,如果没有url参数,直接打开一个Scrapy shell。

也支持UNIX风格的本地文件路径,但是,相对路径必须用 ./或../ 开头,或者使用绝对路径,只是文件名是不行的。

scrapy shell官文链接

开发者可以使用Scrapy shell来验证自己抓取数据的规则是否正确,熟练使用后,可以更高效进行Scrapy项目开发。

没有使用url打开后的示例:

-fetch

未使用过。语法如下:

scrapy fetch <url>

使用Scrapy下载器下载给定的url并把内容写到标准输出。

可以通过配置项指定爬虫程序。

更多消息见官文。

-view

用浏览器打开给定的链接。

-version

查看Scrapy版本,加-v查看Python、twisted和平台相关信息。

项目命令

-check

重要!

和Scrapy项目的测试有关!

需要深入学习!

尚未使用过,请参考官文Spiders Contracts

-list

显示当前Scrapy项目可用的 爬虫。

-edit

编辑指定的爬虫程序。

经过测试,在Windows上未能打开IDLE,和孤是在virtualenv中操作有关系吗?

Linux上是用vi打开(vim?)。

-parse

未使用过。语法如下:

scrapy parse <url> [options]

获取给定的URL,并用处理它的spider(--callback或-c指定解析函数)解析它的响应。

此函数有很多配置项,请查阅官文。

-bench

运行一个benchmark,官文Benchmarking,还没用过,

上面标记了“重要”的都需要达到【精通】的级别,当然,更需要熟悉CSS选择器和XPath。

定制项目命令

看清楚,是定制 项目命令!

全局命令就固定那几个了,但开发者可以定制项目命令,可以很久很久都不会用到吧,不再深入介绍。

后记

还有不少命令的用法不是很熟悉,还需要更加多地实践和理解;

-版本1.0:2018-06-30 22:56

写完后感觉好多命令不是很熟悉啊!还得多练习。后面更熟练了,再进行补充。

目前认为两个命令最重要:shell、check。

其实,这篇文章写的有些乱,因为自己不是精通Scrapy命令行工具吧!日后真的需要完善才行!

当然,孤以为文中还是提供了一些初级的、有价值的信息的。

原文地址:https://www.cnblogs.com/luo630/p/9248256.html

时间: 2024-11-05 22:05:59

Scrapy命令行工具简介的相关文章

openssl命令行工具简介 - 指令x509

原文链接: http://blog.csdn.net/allwtg/article/details/4982507 openssl命令行工具简介 - 指令x509 用法:           openssl x509 [-inform DER|PEM|NET] [-outform DER|PEM|NET]            [-keyform DER|PEM][-CAform DER|PEM] [-CAkeyform DER|PEM]            [-in filename][-o

使用Scrapy命令行工具【导出JSON文件】时编码设置

Windows 10家庭中文版,Python 3.6.4,virtualenv 16.0.0,Scrapy 1.5.0, 使用scrapy命令行工具建立了爬虫项目(startproject),并使用scrapy genspider建立了爬虫,用于抓取某中文门户网站首页的 新闻标题及其链接,全程都在虚拟环境(virtualenv)中执行. 使用scrapy crawl执行爬虫程序并导入一个json文件,此时可以看到,命令行窗口显示的 新闻标题是中文,但在打开导出的json文件时,其新闻标题显示为以

Scrapy 1.4 文档 05 命令行工具

在系统命令行中,使用 scrapy 命令可以创建工程或启动爬虫,它控制着 Scrapy 的行为,我们称之为 Scrapy 命令行工具(command-line tool)或 Scrapy 工具(Scrapy tool).紧跟在 scrapy 命令之后的命令属于子命令(我们称之为"命令(commands)"或"Scrapy命令(Scrapy commands)",例如用于新建项目的 startproject 命令). Scrapy 工具包含许多命令,有各自的功能.参数

scrapy系列教程二——命令行工具(Command line tools)

1.命令行工具(Command line tools) Scrapy是通过Scrapy命令行工具进行控制的.这里我们称之为 “Scrapy tool” 以用来和子命令进行区分. 对于子命令,我们称为 “command” 或者 “Scrapy commands”.Scrapy tool 针对不同的目的提供了多个命令,每个命令支持不同的参数和选项. 2.常用命令 官方命令行说明文档 http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/comma

Scrapy系列教程(1)------命令行工具

默认的Scrapy项目结构 在開始对命令行工具以及子命令的探索前,让我们首先了解一下Scrapy的项目的文件夹结构. 尽管能够被改动,但全部的Scrapy项目默认有类似于下边的文件结构: scrapy.cfg myproject/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py spider1.py spider2.py ... scrapy.cfg 存放的文件夹被觉得是 项目的根文件夹 .该文件里包括pyth

Drupal 8 Console 命令行工具

转载:https://yplam.com/post/79 Drupal Console 是面向Drupal 8 的一套命令行工具,用来生成Drupal 8模板代码,并且可以跟Drupal 8应用进行交互. Drupal Console 与大家熟知的Drush有点类似,但提供不一样的功能,它可以跟Drush结合使用. 安装 $ curl -LSs http://drupalconsole.com/installer | php windows下: php -r "readfile('http://

Apache Commons CLI 开发命令行工具示例

概念说明Apache Commons CLI 简介 虽然各种人机交互技术飞速发展,但最传统的命令行模式依然被广泛应用于各个领域:从编译代码到系统管理,命令行因其简洁高效而备受宠爱.各种工具和系统都 提供了详尽的使用手册,有些还提供示例说明如何二次开发.然而关于如何开发一个易用.强壮的命令行工具的文章却很少.本文将结合 Apache Commons CLI,通过一个完整的例子展示如何准备.开发.测试一个命令行工具.希望本文对有相关需求的读者能有所帮助.      Apache Commons CL

批处理第三方命令行工具汇总(转)

名称 版本 功能简介 下载地址 BatProject.exe 0.5 批处理编辑器 http://www.bathome.net/thread-7186-1-1.html CWnd.exe N/A 窗口.句柄.进程操作 http://www.bathome.net/thread-5778-1-1.html Sum.exe N/A MD5.CRC.BASE64.SHA1加密字符串 http://www.bathome.net/thread-5954-1-1.html TimeBack.exe 1.

Tools - Windows系统下的命令行工具Cmder

cmder简介 官网:http://cmder.net/ GitHub:https://github.com/cmderdev/cmder Cmder是一个windows下的命令行工具,用来替代windows自带的cmd,非常简洁美观易用. 完整版cmder内建msysgit,支持git和常用Linux命令 支持左右上下分屏, 多 tab 终端 绿色便携,解压即可使用 cmder的组成 cmder结合了msysgit.ConEmu与Clink等多个程序组件,因此也同时具备了多种组件的功能. ms