pycharm下打开、执行并调试scrapy爬虫程序

  1. 首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1

     
    目录结构如下:

     
     

  2. 打开Pycharm,选择open

  3. 选择项目,ok

  4. 打开如下界面之后,按alt + 1, 打开project 面板


  5. 在test1/spiders/,文件夹下,新建一个爬虫spider.py, 注意代码中的name="dmoz"。这个名字后面会用到。

  6. 在test1目录和scrapy.cfg同级目录下面,新建一个begin.py文件(便于理解可以写成main.py),注意箭头2所指的名字和第5步中的name=‘dmoz‘ 名字是一样的。

    from scrapy import cmdline

    cmdline.execute("scrapy crawl dmoz".split())
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3

7. 上面把文件搞定了,下面要配置一下pycharm了。点击Run->Edit Configurations

8. 新建一个运行的python模块

9. Name:改成spider; script:选择刚才新建的那个begin.py文件;Working Direciton:改成自己的工作目录 

10. 至此,大功告成了,点击下图,右上角的按钮就能运行了。 

调试

可以在其他代码中设置断点,就可以debug运行

Paste_Image.png

转载1:http://www.jianshu.com/p/f85120fcbca0

转载2:http://blog.csdn.net/wangsidadehao/article/details/52911746

原文地址:https://www.cnblogs.com/curo0119/p/9193342.html

时间: 2024-08-01 16:49:44

pycharm下打开、执行并调试scrapy爬虫程序的相关文章

【菜鸟学php】小菜鸟由帝国备份王在Wamp环境下打开500错误浅谈PHP程序员

===================问题情况描述=================== 小弟一直在玩discuz论坛开源程序,这个论坛程序经常涉及到论坛搬家的问题. 今天我在本地Wamp环境下,用开源软件帝国备份王2010进行数据库备份数据,结果打开发现报错500! 这真是坑爹了,回想下以前自己使用这个开源程序进行备份也不下于十几次了,大部分都正常成功, 但也不乏出现这种情况的,小弟之前一般遇到这种问题, 都是直接忽略,换其他办法来进行备份,但是用惯了帝国备份王,换其他的方法备份数据,总感觉难

python爬虫—使用scrapy爬虫框架

问题1.使用scrapy框架,使用命令提示符pip命令下载scrapy后,却无法使用scrapy命令,出现scrapy不是内部或外部命令.也不是可运行的程序 解决:一开始,我是把python安装在D:\python,安装了scrapy后他默认都会装在此路径下,然后scrapy在路径D:\python\Scripts路径下,而创建工程也只能在此目录下. 如果想让他在dos下想要命令运行成功的话,就的需要知道他在那里,那么这又得学习到环境变量path的作用.所以这就得在path上添加scrapy的地

Eclipse替代ndk-gdb断点调试Android NDK程序

一 概述: Eclipse调试NDK程序的操作并不难,难的是环境的搭建.光是安装Eclipse就有不少问题,真是"大错不犯,小过不断"不胜期烦.在网上,已经有先行者记录下了Eclipse断点调试Android NDK程序的方法: <Eclipse + ADT(包括NDK Plugin) + CDT 搭建Android NDK开发环境>网址:http://blog.sina.com.cn/s/blog_48ed03c80101nhei.html 我遇到的情况与上文有些不同,上

python3下scrapy爬虫(第十四卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行)

现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中 现在我们需要在SETTING.PY设置我们的爬虫文件 再添加PIPELINE 注释掉的原因是爬虫执行完后,和本地存储完毕还需要向主机进行存储会给主机造成压力 设置完这些后,在MASTER主机开启REDIS服务,将代码复制放在其它主机中,注意操作系统类型以及配置 然后分别在各个主机上进行爬取,爬取速度加大并且结果不同 setting中加入这个可以保证爬虫不会被清空 设置这个决定重新爬取时队列是否清空,一般都用FA

亲测——pycharm下运行第一个scrapy项目 &#169;seven_clear

最近在学习scrapy,就想着用pycharm调试,但不知道怎么弄,从网上搜了很多方法,这里总结一个我试成功了的. 首先当然是安装scrapy,安装教程什么的网上一大堆,这里推荐一个详细的:http://blog.csdn.net/php_fly/article/details/19364913,里面有安的东西的资源.有几点需要注意一下:1)Python配置环境变量最好把Scripts路径也加上,如我的是D:\Python27\Scripts.因为装scrapy要用到:2)装zope.inter

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

前几天小编带大家学会了如何在Scrapy框架下创建属于自己的第一个爬虫项目(上),今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明. 在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目.根据提示,我们首先运行"cd article"命令,意思是打开或者进入到article文件夹下,尔后执行命令"scrapy genspider jobbole blog.jobbole.com&

python爬虫scrapy之如何同时执行多个scrapy爬行任务

背景: 刚开始学习scrapy爬虫框架的时候,就在想如果我在服务器上执行一个爬虫任务的话,还说的过去.但是我不能每个爬虫任务就新建一个项目吧.例如我建立了一个知乎的爬行任务,但是我在这个爬行任务中,写了多个spider,重要的是我想让他们同时运行,怎么办? 小白解决办法: 1.在spiders同目录下新建一个run.py文件,内容如下(列表里面最后可以加上参数,如--nolog) 2.小白想了(当时的我),这样也行,mygod,那我岂不是多写几行就行就行了么,结果(结果白痴了),小白又想,那加个

在Pycharm中运行Scrapy爬虫项目的基本操作

目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: 一.建立Scrapy模板.进入自己的工作目录,shift + 鼠标右键进入命令行模式,在命令行模式下, 输入scrapy startproject 项目名 ,如下: 看到以上的代码说明项目已经在工作目录中建好了. 二.在Pycharm中scrapy的导入.在Pycharm中打开工作目录中的TestD

在pycharm中使用scrapy爬虫

目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: 一.建立Scrapy模板.进入自己的工作目录,shift + 鼠标右键进入命令行模式,在命令行模式下, 输入scrapy startproject 项目名 ,如下: 看到以上的代码说明项目已经在工作目录中建好了. 二.在Pycharm中scrapy的导入.在Pycharm中打开工作目录中的TestD