<scrapy爬虫>scrapy命令行操作

1.mysql数据库
2.mongoDB数据库
3.redis数据库

1.创建项目
	scrapy startproject myproject
	cd myproject

2.创建爬虫
	scrapy genspider myspider www.baidu.com
	scrapy genspider -t crawl myspider www.baidu.com----创建有rules配置

3.运行爬虫
	scrapy crawl myspider

4.错误检查
	scrapy check ----检查爬虫的语法错误

5.列出爬虫
	scrapy list --返回项目里spider名称
6.测试网页
	scrapy fetch www.baidu.com
	scrapy fetch --nolog www.baidu.com ----不会生成日志
	scrapy fetch --nolog --headers www.baidu.com 	--输出headers
	scrapy fetch --nolog --no-redirect---不会重定向
7.请求网页 把网页源代码保存成文件,在用浏览器打开(调试工具)
	scrapy view http://www.baidu.com

8.命令行交互模式shell
	scrapy shell http://www.baidu.com
	request---请求的网页
	response--请求网页的返回结果
	response.text请求结果
	response.headers--headers
	view(response)---在网页上打开返回的结果(如果能显示出来,说明是静态网页,能直接爬,如果没显示,说明是Ajax加载的网页)
	response.xpath("")--用xpath解析网页
9.解析网页的内容
	scrapy parse http://www.baidu.com -c parse	---前面是parse方法,后面是callback调用解析的parse方法
10.获取配置信息
	scrapy settings --get MONGO_URL---获取配置信息
11.运行spider文件
	scrapy runspider myspider.py---直接运行myspider文件(参数是文件名称)
12.输出版本
	scrapy version
	scrapy version -v---输出依赖库的版本
13.测试
	scrapy bench---测试爬行速度,反应当前运行性能

  

原文地址:https://www.cnblogs.com/shuimohei/p/10495900.html

时间: 2024-11-10 14:25:33

<scrapy爬虫>scrapy命令行操作的相关文章

2015.12.01 软件安装 命令行操作 vi

软件安装 1.App Store 2..dmg/.pkg(相当于光盘镜像) 双击安装 3.绿色软件,*.app 直接拖拽到Application (非官方的安装,要注意在偏好设置中允许任何来源) 常用网址:www.macx.cn        bbs.feng.com 在对MacOS系统的操作当中,有两种操作方式.一种就是图形化操作,另一种就是命令行操作.对比而言,前者更直观,而后者则是更便捷并且节约资源. 基本命令 ls                           查看当前文件夹下的文

ubuntu命令行操作mysql常用操作

登陆mysql [email protected]:~/ruby/mydiary$ mysql -u root -p Enter password: Welcome to the MySQL monitor. Commands end with ; or \g. 查看所有的数据库 mysql> show databases; --注意必须要用;结尾否则不会立即执行代码 +--------------------+ | Database | +--------------------+ | inf

github linux 命令行操作实例

继续整理一下linux 下面使用命令行操作实例 首先创建文件目录 然后 执行 git clone 操作 [email protected]:~/桌面$ cd test/ [email protected]:~/桌面/test$ git clone https://github.com/timelessz/TESTDEMO.git正克隆到 'TESTDEMO'...remote: Counting objects: 3, done.remote: Total 3 (delta 0), reused

win7休眠的开启与关闭方法命令行操作和图文结合的鼠标操作

win7休眠的开启与关闭方法 从开始菜单中找到"附件→命令提示符",手工输入如下命令:powercfg -a,从这里可以清楚的看到,计算机是支持休眠的,显示"尚未启用休眠".仍然在命令提示符下进行操作,     开始休眠方法:手工键入如下命令: powercfg -hibernate on(关闭则为powercfg -hibernate off) 命令执行之后立即就可以生效,无需要重新启动系统,再次执行"powercfg -a"命令,这里会提示当

Ubuntu server版上使用命令行操作VPN客户端

Ubuntu server版上使用命令行操作VPN客户端 VPN,虚拟专用网络,这个技术还是非常实用的.最近笔者参与的项目中就使用上了VPN,大概情况是这样的,有两个开发团队,在异地,代码服务器在深圳了,它使用的是企业内部局域网,支持上网功能的,我们在公网上弄了个阿里云服务器,装了ubuntu vpn的server,其实我们现在要做的就是把代码服务器通过VPN拨号上去,组建一个新的本地网络,怎么大家VPN的server笔者就不在这描述了,网上已经有大把资料了,笔者下面就简要介绍一下自己在代码服务

ubuntu,从新建一个用户,到转到新建用户的命令行操作

题目链接: http://poj.org/problem?id=2773 Happy 2006 Time Limit: 3000MS   Memory Limit: 65536K Total Submissions: 9131   Accepted: 3073 Description Two positive integers are said to be relatively prime to each other if the Great Common Divisor (GCD) is 1.

命令行操作svn和git和git

前几天在写代码的时候电脑突然坏掉,老大交代的任务没完成,非常痛恨自己用svn或者git保存代码,相信很多程序员遇到过,硬盘坏掉,存在硬盘中的代码丢失,无法找回的问题,svn和git可谓程序员界的福音,那么问题来了,什么是svn和git呢? svn和git其实都是一种用来管理项目的控制版本工具,他们有很多好处,比如 1.防止代码丢失----可以把自己的代码上传到服务器上 2.适合多人开发----合并代码超级简单 3.能够进行版本回退 4.能解决冲突和bug 5.可以做分支 6.责任到人----可以

SQL命令行操作

命令行操作(mysql.exe)    0.登录  :       mysql -u root -p    1.显示数据库列表:    show databases;     2.选择数据库:      use 库名;    3.显示数据表列表     show tables;    4.显示数据表的结构: desc 表名;    5.建库:       create database 库名 charset utf8;    6.建表:       use 库名:     create tabl

android 使用命令行操作模拟器

首先你得配置好环境变量,不懂配置或者没配置好的去别处查查先,这里就不教了.建议是否配置好环境变量的方法就是打开运行窗,输入 cmd 然后回车,如果输出一大堆东西就说明配置好了. 然后这个什么叫做命令行操作模拟器呢,主要有个用途比较实在,就是安装一些应用程序到模拟器上.或者是查看手机上面的一些数据,尤其是数据库: 一些功能操作在这里列出来: 1.利用命令行安装手机软件到模拟器上 adb install path 其中path为路径名比如我在d盘有个文件夹app里面有个软件a.apk则path为:d

mysql简单命令行操作以及环境变量的配置

1.配置环境变量 - 找到mysql的bin目录,配置到环境变量path下. 2.简单的命令行操作 -1.登录: mysql -hlocalhost(-h后面跟数据库ip地址) -uroot(-u后面跟user名) -p(密码) -2.退出: exit -3.数据库操作: -1.建库:create database mydb; -2.删库:drop database mydb; -3.显示所有的数据库:show databases; -4.选择库(选择要使用的数据库):use mydb; -4.