pycharm下打开、执行并调试scrapy爬虫程序

首先得有一个Scrapy项目，我在Desktop上新建一个Scrapy的项目叫test，在Desktop目录打开命令行，键入命令：scrapy startproject test1

目录结构如下：
打开Pycharm，选择open
选择项目，ok
打开如下界面之后，按alt + 1，打开project 面板
在test1/spiders/，文件夹下，新建一个爬虫spider.py，注意代码中的name="dmoz"。这个名字后面会用到。
在test1目录和scrapy.cfg同级目录下面，新建一个begin.py文件（便于理解可以写成main.py），注意箭头2所指的名字和第5步中的name=‘dmoz‘ 名字是一样的。

    from scrapy import cmdline

    cmdline.execute("scrapy crawl dmoz".split())

7. 上面把文件搞定了，下面要配置一下pycharm了。点击Run->Edit Configurations

8. 新建一个运行的python模块

9. Name：改成spider； script：选择刚才新建的那个begin.py文件；Working Direciton：改成自己的工作目录

10. 至此，大功告成了，点击下图，右上角的按钮就能运行了。

调试

可以在其他代码中设置断点，就可以debug运行

Paste_Image.png

转载1：http://www.jianshu.com/p/f85120fcbca0

转载2：http://blog.csdn.net/wangsidadehao/article/details/52911746

原文地址：https://www.cnblogs.com/curo0119/p/9193342.html

时间： 2024-08-01 16:49:44

pycharm下打开、执行并调试scrapy爬虫程序的相关文章

【菜鸟学php】小菜鸟由帝国备份王在Wamp环境下打开500错误浅谈PHP程序员

===================问题情况描述=================== 小弟一直在玩discuz论坛开源程序,这个论坛程序经常涉及到论坛搬家的问题. 今天我在本地Wamp环境下,用开源软件帝国备份王2010进行数据库备份数据,结果打开发现报错500! 这真是坑爹了,回想下以前自己使用这个开源程序进行备份也不下于十几次了,大部分都正常成功, 但也不乏出现这种情况的,小弟之前一般遇到这种问题, 都是直接忽略,换其他办法来进行备份,但是用惯了帝国备份王,换其他的方法备份数据,总感觉难

python爬虫—使用scrapy爬虫框架

问题1.使用scrapy框架,使用命令提示符pip命令下载scrapy后,却无法使用scrapy命令,出现scrapy不是内部或外部命令.也不是可运行的程序解决:一开始,我是把python安装在D:\python,安装了scrapy后他默认都会装在此路径下,然后scrapy在路径D:\python\Scripts路径下,而创建工程也只能在此目录下. 如果想让他在dos下想要命令运行成功的话,就的需要知道他在那里,那么这又得学习到环境变量path的作用.所以这就得在path上添加scrapy的地

Eclipse替代ndk-gdb断点调试Android NDK程序

一概述: Eclipse调试NDK程序的操作并不难,难的是环境的搭建.光是安装Eclipse就有不少问题,真是"大错不犯,小过不断"不胜期烦.在网上,已经有先行者记录下了Eclipse断点调试Android NDK程序的方法: <Eclipse + ADT(包括NDK Plugin) + CDT 搭建Android NDK开发环境>网址:http://blog.sina.com.cn/s/blog_48ed03c80101nhei.html 我遇到的情况与上文有些不同,上

python3下scrapy爬虫(第十四卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行）

现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中现在我们需要在SETTING.PY设置我们的爬虫文件再添加PIPELINE 注释掉的原因是爬虫执行完后,和本地存储完毕还需要向主机进行存储会给主机造成压力设置完这些后,在MASTER主机开启REDIS服务,将代码复制放在其它主机中,注意操作系统类型以及配置然后分别在各个主机上进行爬取,爬取速度加大并且结果不同 setting中加入这个可以保证爬虫不会被清空设置这个决定重新爬取时队列是否清空,一般都用FA

最近在学习scrapy,就想着用pycharm调试,但不知道怎么弄,从网上搜了很多方法,这里总结一个我试成功了的. 首先当然是安装scrapy,安装教程什么的网上一大堆,这里推荐一个详细的:http://blog.csdn.net/php_fly/article/details/19364913,里面有安的东西的资源.有几点需要注意一下:1)Python配置环境变量最好把Scripts路径也加上,如我的是D:\Python27\Scripts.因为装scrapy要用到:2)装zope.inter

手把手教你如何新建scrapy爬虫框架的第一个项目（下）

前几天小编带大家学会了如何在Scrapy框架下创建属于自己的第一个爬虫项目(上),今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明. 在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目.根据提示,我们首先运行"cd article"命令,意思是打开或者进入到article文件夹下,尔后执行命令"scrapy genspider jobbole blog.jobbole.com&

python爬虫scrapy之如何同时执行多个scrapy爬行任务

背景: 刚开始学习scrapy爬虫框架的时候,就在想如果我在服务器上执行一个爬虫任务的话,还说的过去.但是我不能每个爬虫任务就新建一个项目吧.例如我建立了一个知乎的爬行任务,但是我在这个爬行任务中,写了多个spider,重要的是我想让他们同时运行,怎么办? 小白解决办法: 1.在spiders同目录下新建一个run.py文件,内容如下(列表里面最后可以加上参数,如--nolog) 2.小白想了(当时的我),这样也行,mygod,那我岂不是多写几行就行就行了么,结果(结果白痴了),小白又想,那加个

在Pycharm中运行Scrapy爬虫项目的基本操作

目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: 一.建立Scrapy模板.进入自己的工作目录,shift + 鼠标右键进入命令行模式,在命令行模式下, 输入scrapy startproject 项目名 ,如下: 看到以上的代码说明项目已经在工作目录中建好了. 二.在Pycharm中scrapy的导入.在Pycharm中打开工作目录中的TestD