亲测——pycharm下运行第一个scrapy项目 ©seven_clear

最近在学习scrapy,就想着用pycharm调试,但不知道怎么弄,从网上搜了很多方法,这里总结一个我试成功了的。

首先当然是安装scrapy,安装教程什么的网上一大堆,这里推荐一个详细的:http://blog.csdn.net/php_fly/article/details/19364913,里面有安的东西的资源。有几点需要注意一下:1)Python配置环境变量最好把Scripts路径也加上,如我的是D:\Python27\Scripts。因为装scrapy要用到;2)装zope.interface-4.0.5-py2.7-win32.egg时打开方式选Scripts路径下的easy_install.exe。其他的应该没问题了。

大致流程是:先用命令行新建一个scrapy项目->用pycharm打开该项目->编写自己的爬虫代码->运行。

找到你想建项目的目录,然后在该目录下启动cmd,输入scrapy startproject name(自定义的项目名),没意外的话你会在你的目录下看到name文件夹,这就是你的scrapy项目,打开该文件夹,会有一个同名文件夹和scrapy.cfg文件。©seven_clear

然后用pycharm打开该项目,创建自己的爬虫,具体可参考:http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html,不过我安的是0.20.2版本,在定义自己的爬虫类时代码有些许不同:

# coding:utf-8
from scrapy.spider import BaseSpider

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, ‘wb‘).write(response.body)

import的是BaseSpider,其他的都是文档上的代码。编辑items.py时把自己的item类写在原类下面:

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

from scrapy.item import Item, Field

class TestscrapyItem(Item):
    # define the fields for your item here like:
    # name = Field()
    pass

class DmozItem(Item):
    title = Field()
    link = Field()
    desc = Field()  

好了,现在就差运行了,只需要写一个命令行即可,为了方便,写进一个Python文件中,名字自定义(可以命名为main),和scrapy.cfg在同级目录下,内容就两行:

# coding:utf-8

from scrapy import cmdline

cmdline.execute("scrapy crawl dmoz".split())

dmoz是爬虫的名字,可变。这样运行我们的main.py就可以了。怎么样,简单吧,有些事要自己亲自做过,回头才发现真的很简单。©seven_clear

时间: 2024-10-11 22:34:20

亲测——pycharm下运行第一个scrapy项目 ©seven_clear的相关文章

Python爬虫框架Scrapy 学习笔记 3 ------- 第一个Scrapy项目

开发环境PyCharm 目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695 但是这次不是在单个文件中运行,而是创建一个scrapy项目 1.使用命令行工具创建scrapy项目的基本目录结构 2. 编辑items.py 3.在spiders目录下,新建spider1.py 报错很正常 我们按照scrapy project的目录结构导入了TorrentItem,而不是pyCharm project的目录结构 4.运行spider 抓

抓取scrapy中文文档 第一个Scrapy项目实现

使用Scrapy这个python的网络爬虫框架抓取Scrapy中文文档 开发第一步:新建项目scrapy startproject myfirst 目录结构: myfirst │ scrapy.cfg Scrapy项目配置文件 │ └─myfirst Scrapy项目代码存放目录 │ items.py 存储从抓取的网页中需要保存的数据,再其中指定要存储的域 │ pipelines.py 管道文件,用于存储从抓取的网页中解析出的其他页面的url,相当于任务队列 │ settings.py 爬虫配置

Intellij IDEA下的第一个Hibernate项目

参考:intellij配置hibernate自动生成hbm.xml文件     从零开始用Intellij idea14创建hibernate项目 下面我要讲的创建方式,可能更加原生态,更加类似于Eclipse下创建Hibernate项目的方式,我想这也有助于对在Intellij IDEA下创建Hibernate项目的理解. 首先需要在Intellij IDEA下创建一个项目Project,相当于Eclipse下的workspace(工作空间),当然如果你此时选择了创建Hibernate项目的方

创建第一个Scrapy项目

d:进入D盘 scrapy startproject tutorial建立一个新的Scrapy项目 工程的目录结构: tutorial/ scrapy.cfg # 部署配置文件 tutorial/ # 项目的Python模块,您将从这里导入代码 __init__.py items.py # 项目项目定义文件 middlewares.py # 项目中间件文件 pipelines.py # 项目管道文件 settings.py # 项目设置文件 spiders/ # 一个目录,你以后会把你的爬虫放进

.NET Core初体验 - 在Mac下运行第一个Web示例程序

要说最近两天程序猿之间最喜欢吹水的事是什么?那绝壁是甲骨文要放弃Java!简直做梦都要笑醒!由于公司的产品线全面转向Java,最近几个月也一直在苦学Java技术.已经默默决定了,如果消息证实是真的,我马上烧掉那本最近在啃的<Spring in action>- 之前也用Xamarin Studio写一些C#的小东西,这次看到.NET Core这么如火如荼的开源着,并且可用于生产环境,我也来凑下热闹. 0. 安装Homebrew Homebrew简称"brew"是Mac下的包

ubuntu下运行第一个.net core web程序

前置条件 ubuntu系统 且已经安装dotnetcore运行环境 mkdir  testMVC 创建一个文件夹 cd testMVC    进入文件夹 dotnet new -t web 创建程序(使用ls命令查看文件是否都已经成功创建 ) 可以看到熟悉的文件目录出来了 dotnet restore 下载json文件中的依赖项 最后一步 dotnet run运行 运行效果 运行成功

【亲测有效】运行docker ps 出现Got permission denied问题的解决方案

问题描述 今天在运行 docker ps 命令的时候出现如下问题: Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get http://%2Fvar%2Frun%2Fdocker.sock/v1.38/containers/json: dial unix /var/run/docker.sock: connect: permissi

运行第一个abp项目VS2015+localDB

ASP.NET Boilerplate,简称ABP 详细深入:可以参考如下文章 http://www.cnblogs.com/mienreal/p/4528470.html http://www.cnblogs.com/farb/ 开始前你将要跑起第一个abp程序 可是发现怎么都运行不起来.... 阅读完官方文档后,有所了解,下现一步步一吧 一.生成一个自己需要的项目 打开官方地址: http://www.aspnetboilerplate.com/Templates 1>选择Multi Pag

pycharm下打开、执行并调试scrapy爬虫程序

首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1  目录结构如下:    打开Pycharm,选择open 选择项目,ok 打开如下界面之后,按alt + 1, 打开project 面板 在test1/spiders/,文件夹下,新建一个爬虫spider.py, 注意代码中的name="dmoz".这个名字后面会用到. 在test1目录和scrapy.cf