Scrapy学习-25-Scrapyd部署spider

Scrapyd部署爬虫项目

github项目

 https://github.com/scrapy/scrapyd 

官方文档

 http://scrapyd.readthedocs.org/ 

安装scrapyd

 http://scrapyd.readthedocs.io/en/stable/install.html 

运行

# 在虚拟环境中使用scrapd命令

# scrapyd是一个服务器监听在本地的6800端口

scrapyd

安装scrapd客户端

pip install scrapyd-client

# 用于项目打包

# python路径的Script目录下发现生成了一个scrapyd-deploy的文件

打包项目到scrapyd中

编辑scrapy.cfg

# 打开scrapyd服务

    [deploy:name]
    url = http://localhost:6800/
    project = ArticleSpider

进入爬虫项目目录

cd E:\Python Project\scrapyproject\ArticleSpider

运行scrapyd-deploy文件

# 由于没有后缀不能运行

# 解决办法:新建一个文件scrapd-deploy.bat,写入下面数据

@echo off

"E:\Python Project\venvdir\scrapyenv3\Scripts\python.exe" "E:\Python Project\venvdir\scrapyenv3\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9 

# 再次执行发现可以使用了

scrapyd-deploy -l 

# 默认自己读取scrapy.cfg内容

# 如果出现importError问题注意

# import sys
# BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))
# sys.path.insert(0, os.path.join(BASE_DIR, ‘ArticleSpider‘))

# 打包spider项目

scrapyd-deploy name -p ArticleSpider

# E:\Python Project\venvdir\scrapyenv3\Scripts\eggs\ArticleSpider\xxxx.egg

# scrapyd-deploy将项目打包成一个后缀为egg的文件,发送到scrapyd服务器

部署项目

接口认识

http://scrapyd.readthedocs.io/en/stable/api.html

部署命令

curl http://localhost:6800/schedule.json -d project=ArticleSpider -d spider=myspider

# 返回 {"status": "ok", "jobid": "6487ec79947edab326d6db28a2d86511e8247444"}

# 刷新scrapy管理页面可以发现新的项目

项目管理

参考官方文档

原文地址:https://www.cnblogs.com/cq146637/p/9093717.html

时间: 2024-10-18 19:07:33

Scrapy学习-25-Scrapyd部署spider的相关文章

五十一 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目

scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目 下载地址:https://github.com/scrapy/scrapyd 建议安装 pip3 install scrapyd 首先安装scrapyd模块,安装后在Python的安装目录下的Scripts文件夹里会生成scrapyd.exe启动文件,如果这个文件存在说明安装成功,我们就可以执行命令了 启动scrapyd服务 在命令输入:scrapyd 如图说明启动成功,关闭或者退出命令窗口,因为我们正真的使用是

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令

1. 有些scrapy命令,只有在scrapy project根目录下才available,比如crawl命令 2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834 自动在spider目录下生成taobao.py # -*- coding: utf-8 -*- import scrapy class TaobaoSpider(scrapy.Spider):     name = "taobao&qu

爬虫Scrapy学习指南之抓取新浪天气

scrapy有一个简单的入门文档,大家可以参考一下,我感觉官方文档是最靠谱的,也是最真实的. 首先我们先创建一个scrapy的项目 scrapy startproject weather 我采用的是ubuntu12.04的系统,建立项目之后主文件夹就会出现一个weather的文件夹.我们可以通过tree来查看文件夹的结构.可以使用sudoapt-get install tree安装. tree weather weather ├── scrapy.cfg ├── wea.json ├── wea

Scrapy学习笔记

所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据.不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了.一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样. Scrapy是一个基于

Scrapy学习篇(五)之Spiders

Spiders Spider类定义了如何爬取某个网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item).简而言之,Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方. 对spider来说,爬取的循环类似如下: 以初始的URL初始化Request,并设置回调函数.当该request下载完毕并返回时,将生成response,并作为参数传给该回调函数.spider中初始的request是通过调用start_requests() 来获取.st

python scrapy学习笔记(二)

使用scrapy批量抓取,参考http://python.jobbole.com/87155 一.创建项目 # scrapy startproject comics 创建完成后的目录结构 . ├── comics │   ├── __init__.py │   ├── items.py │   ├── middlewares.py │   ├── pipelines.py │   ├── settings.py │   └── spiders │       └── __init__.py └─

[游戏学习25] MFC 橡皮筋画线效果

>_<:这是给出窗口内外不同情况的处理展示的例子. >_<:MouseCap.h 1 #include<afxwin.h> 2 class CMyApp :public CWinApp 3 { 4 public: 5 virtual BOOL InitInstance(); 6 }; 7 class CMainWindow:public CFrameWnd 8 { 9 protected: 10 BOOL m_bTracking; //标志:鼠标按下为真,否则为假 11

Python爬虫框架Scrapy 学习笔记 8----Spider

什么是爬虫? 从逻辑角度讲,爬虫对应一个树.树枝是网页,树叶是感兴趣的信息. 当我们从一个URL出发查找感兴趣的信息时,当前URL返回的内容可能包含我们感兴趣的信息,也可能包含另一个可能包含我们感兴趣的信息的URL.一个爬虫对应一次信息搜索,信息搜索过程会建立起一棵树. scrapy.Spider这个类提供了接口,允许我们设计整个信息搜索的流程. 给spider传递运行时所需的参数.比如URL ?号后面的参数信息.这些信息可以选择使用crawl -a 命令传递 2. Spider循环 对spid

Jetty学习四:部署到Jetty

Web应用的框架 标准Jetty发布版本能部署标准servlet Spec Web应用和Jetty内部ContextHandler部署描述符,或者两者的一个混合. Web应用是可部署的动态(servlets.filters.jsps.等等)和静态内容.支持库.和绑定到特定上下文路径的描写性的元数据的集合. 格式和布局最终都是通过Servlet Spec定义,你可以查阅官方Servlet Spec文档获取关于Web应用布局和结构的更多细节,这里将给出一个基本的轮廓. Web应用能被捆绑到一个单个的