常用工具命令

常用工具命令


全局命令

Scrapy 可执行文件命令说明:

Fetch 命令

主要用来显示爬虫爬取的工程。如图:

如果在项目目录之外执行命令,则会调用 Scrapy 默认的爬虫来进行网页的爬取。

可以通过 Fetch 附带的参数进行爬取相关的数据,如:

  • --headers 参数来控制显示对应的爬虫爬取网页的头信息。
  • --nolog 参数可以控制不显示日志信息。
  • --spider=SPIDER 参数来控制那个爬虫。
  • --logfile=FILE 参数控制日志存储信息的文件。
  • --loglevel=LEVEL 控制日志级别。

Runspider 命令

通过 Runspider 命令可以实现不依托 Scrapy 的爬虫项目,直接运行一个爬虫文件。

Setting 命令

可以查看 Scrapy 对应的配置信息。

Shell 命令

可以启动 Scrapy 的交互终端。

Startproject 命令

创建 Scrapy 项目。

version 命令

查看 Scrapy 版本信息。

View 命令可以下载某个网页用浏览器查看的功能。

$ scrapy view http://news.163.com

执行命令后会打开默认浏览器并记录相关信息:

项目命令

项目命令需要进入 Scrapy 创建的项目内部执行。

Bench 命令

测试本地硬件的性能。

$ scrapy banch

Genspider 命令

使用 Genspider 创建 Scrapy 爬虫文件,这是一种迅速创建爬虫文件的方式。

查看模板:

$ scrapy genspider -l

使用 basic 模板创建一个项目:

查看 csvfeed 爬虫模板中的内容:

$ scrapy genspider -d csvfeed

Check 命令

实现对某个爬虫文件进行合同检查,这里是对爬虫名进行查询不是文件名。(slzcc 为创建的项目名)

$ scrapy check slzcc

Crawl 命令

通过 Crawl 可以启动某个爬虫。

$ scrapy crawl slzcc

List 命令

列出当前可以使用的爬虫

$ scrapy list

Edit 命令

使用 list 后,可以对爬虫文件进行编辑。

Parse 命令

可以获取指定的 URL 网站。

$ scrapy parse http://www.baidu.com --nolog

原文地址:https://www.cnblogs.com/dalton/p/11353880.html

时间: 2024-11-11 00:10:46

常用工具命令的相关文章

01. Shell基础和使用技巧(工具+常用bash命令加速操作)

Shell脚本介绍和常用工具 Shell脚本 Shell脚本:实际就是windows里的批处理脚本,多条可一次执行的Shell命令集合.Linux上的脚本可以用很多种语言实现,bash shell是比较简单的一种,更高阶的可以用其他脚本语言,比如Python. Shell脚本对系统的管理能力非常强大,甚至可以使用Shell结合php实现Web管理Linux系统功能:可以自己写一个Web页面(示例:基于Php),对系统进行管理,包括查看删除用户,配置网络,发送邮件,重启系统,一键备份,一键搭建服务

77个常用Linux命令和工具

77个常用Linux命令和工具 Linux管理员不能单靠GUI图形界面吃饭.这就是我们编辑这篇最实用Linux命令手册的原因.这个指南是特别为Linux管理员和系统管理员 设计的,汇集了最有用的一些工具做为他们日常维护的参考手册.通过学习这些简单的工具,那些原本害怕命令行的人也可以变成一个脚本高手,从而通过执行 kernal命令和shell命令来最大限度的发挥linux的作用.请善用我们的指南,有任何Linux方面的问 题或者需要寻找相关答案请务必到我们 的TechTarget中国服务器论坛来发

分布式进阶 十 linux命令行下载文件以及常用工具 wget Prozilla MyGet Linuxdown Cu

linux命令行下载文件以及常用工具:wget.Prozilla.MyGet.Linuxdown.Curl.Axel 本文介绍常用的几种命令行式的下载工具:wget.Prozilla.MyGet.Linuxdown.Curl.Axel 下面就为大家详细介绍一下这些工具. 1. Wget Wget是一个十分常用命令行下载工具,多数Linux发行版本都默认包含这个工具.如果没有安装可在http://www.gnu.org/software/wget/wget.html 下载最新版本. 1.1 编译安

Linux服务器开发常用的命令以及遇到的问题

1. 什么是linux服务器load average? Load是用来度量服务器工作量的大小,即计算机cpu任务执行队列的长度,值越大,表明包括正在运行和待运行的进程数越多.参考资料:http://en.wikipedia.org/wiki/Load_average 2. 如何查看linux服务器负载 可以通过w,top,uptime,procinfo命令,也可以通过/proc/loadavg文件查看. 3. 服务器负载高怎么办? 服务器负载(load/load average)是根据进程队列的

大数据基础之常用Linux命令

大数据实验环境一般为Linux,熟悉Linux操作非常有必要,总结常用Linux命令如下. 1.cd命令 进入文件夹: cd dirname 进入多级文件夹: cd /usr/local/Cellar 返回上层目录: cd ../ 返回上层的上层: cd ../../ 回到主文件夹 cd 2.ls命令 ls命令用于列出当前文件和目录,加上参数之后可以做更多的事情. 不带参数运行ls会列出文件和目录 ls 使用-l参数切换到长清单模式,会显示当前目录内容的长列表: ls -l 加上-lh参数显示文

常用cmd命令大全

最早的电脑系统是从DOS系统开始,DOS时代没有现在Windows这样的视窗操作界面,让你输入命令.随着电脑的发展至今,学习一些常用cmd命令大全是很有必要.大多数的程序员高手们或计算机专家在DOS系统下的操作是非常历害,所以菜鸟要想成为计算机高手,不防多学习一些cmd命令大全. 1.CMD命令:开始->运行->键入cmd或command(在命令行里可以看到系统版本.文件系统版本) 2. CMD命令大全详解: 1. gpedit.msc-----组策略. 2..sndrec32-------录

Android 中查看内存的使用情况集常用adb命令

1. 在IDE中查看Log信息 当程序运行垃圾回收的时候,会打印一条Log信息,其格式如下: D/dalvikvm: <GC_Reason> <Amount_freed>, <Heap_stats>, <External_memory_stats>, <Pause_time> GC_Reason表示导致垃圾回收的原因以及当前的回收类型,包括以下几类: GC_CONCURRENT:当堆中对象数量达到一定是触发的垃圾收集 GC_FOR_MALLOC:

常用网络命令及其使用

常用网络命令使用与网络连通测试 1.Ipconfig <1>ipconfig  /all 当使用all选项时,IPConfig能为DNS和WINS服务器显示它已配置且所要使用的附加信息(如IP地址等),并且显示内置于本地网卡中的物理地址(MAC).如果IP地址是从DHCP服务器租用的,IPConfig将显示DHCP服务器的IP地址和租用地址预计失效的日期. <2>ipconfig  /release和ipconfig  /renew 这是两个附加选项,只能在向DHCP服务器租用其I

常用git命令

##GIT ###什么是gut - 是一个源代码管理工具- 在一个项目中,凡是由开发人员编写的都是源代码- 源代码有必要被管理起来吗- 让源代码可以被追溯,主要记录每次变了什么,谁主导这次变化- 人为的维护比较麻烦- GIT是Linux之父当年为了维护管理Linux源代码写的一个工具- GIT之前很多使用的svn vss tfs hs - https://guides.github.com/ ### 安装GIT - git命令行工具- 基于git命令行的一个客户端软件(提供一个界面去管理源代码)