Python架构师手把手教你Scrapy 对接 Docker

环境配置问题可能一直会让我们头疼,包括如下几种情况。

  • 我们在本地写好了一个Scrapy爬虫项目,想要把它放到服务器上运行,但是服务器上没有安装Python环境。
  • 其他人给了我们一个Scrapy爬虫项目,项目使用包的版本和本地环境版本不一致,项目无法直接运行。
  • 我们需要同时管理不同版本的Scrapy项目,如早期的项目依赖于Scrapy 0.25,现在的项目依赖于Scrapy 1.4.0。

在这些情况下,我们需要解决的就是环境的安装配置、环境的版本冲突解决等问题。

对于Python来说,VirtualEnv的确可以解决版本冲突的问题。但是,VirtualEnv不太方便做项目部署,我们还是需要安装Python环境,

如何解决上述问题呢?答案是用Docker。Docker可以提供操作系统级别的虚拟环境,一个Docker镜像一般都包含一个完整的操作系统,而这些系统内也有已经配置好的开发环境,如Python 3.6环境等。

我们可以直接使用此Docker的Python 3镜像运行一个容器,将项目直接放到容器里运行,就不用再额外配置Python 3环境。这样就解决了环境配置的问题。

我们也可以进一步将Scrapy项目制作成一个新的Docker镜像,镜像里只包含适用于本项目的Python环境。如果要部署到其他平台,只需要下载该镜像并运行就好了,因为Docker运行时采用虚拟环境,和宿主机是完全隔离的,所以也不需要担心环境冲突问题。

如果我们能够把Scrapy项目制作成一个Docker镜像,只要其他主机安装了Docker,那么只要将镜像下载并运行即可,而不必再担心环境配置问题或版本冲突问题。

接下来,我们尝试把一个Scrapy项目制作成一个Docker镜像。

一、本节目标

我们要实现把前文Scrapy的入门项目打包成一个Docker镜像的过程。项目爬取的网址为:http://quotes.toscrape.com/。本章Scrapy入门一节已经实现了Scrapy对此站点的爬取过程,项目代码为:https://github.com/Python3WebSpider/ScrapyTutorial。如果本地不存在的话可以将代码Clone下来。

二、准备工作

请确保已经安装好Docker和MongoDB并可以正常运行。

三、创建Dockerfile

首先在项目的根目录下新建一个requirements.txt文件,将整个项目依赖的Python环境包都列出来,如下所示:

scrapy
pymongo

如果库需要特定的版本,我们还可以指定版本号,如下所示:

scrapy>=1.4.0
pymongo>=3.4.0

在项目根目录下新建一个Dockerfile文件,文件不加任何后缀名,修改内容如下所示:

FROM python:3.6
ENV PATH /usr/local/bin:$PATH
ADD . /code
WORKDIR /code
RUN pip3 install -r requirements.txt
CMD scrapy crawl quotes

第一行的FROM代表使用的Docker基础镜像,在这里我们直接使用python:3.6的镜像,在此基础上运行Scrapy项目。

第二行ENV是环境变量设置,将/usr/local/bin:$PATH赋值给PATH,即增加/usr/local/bin这个环境变量路径。

第三行ADD是将本地的代码放置到虚拟容器中。它有两个参数:第一个参数是.,代表本地当前路径;第二个参数是/code,代表虚拟容器中的路径,也就是将本地项目所有内容放置到虚拟容器的/code目录下,以便于在虚拟容器中运行代码。

第四行WORKDIR是指定工作目录,这里将刚才添加的代码路径设成工作路径。这个路径下的目录结构和当前本地目录结构是相同的,所以我们可以直接执行库安装命令、爬虫运行命令等。

第五行RUN是执行某些命令来做一些环境准备工作。由于Docker虚拟容器内只有Python 3环境,而没有所需要的Python库,所以我们运行此命令来在虚拟容器中安装相应的Python库如Scrapy,这样就可以在虚拟容器中执行Scrapy命令了。

第六行CMD是容器启动命令。在容器运行时,此命令会被执行。在这里我们直接用scrapy crawl quotes来启动爬虫。

四、修改MongDB连接

接下来我们需要修改MongoDB的连接信息。如果我们继续用localhost是无法找到MongoDB的,因为在Docker虚拟容器里localhost实际指向容器本身的运行IP,而容器内部并没有安装MongoDB,所以爬虫无法连接MongoDB。

这里的MongoDB地址可以有如下两种选择。

  • 如果只想在本机测试,我们可以将地址修改为宿主机的IP,也就是容器外部的本机IP,一般是一个局域网IP,使用ifconfig命令即可查看。
  • 如果要部署到远程主机运行,一般MongoDB都是可公网访问的地址,修改为此地址即可。

在本节中,我们的目标是将项目打包成一个镜像,让其他远程主机也可运行这个项目。所以我们直接将此处MongoDB地址修改为某个公网可访问的远程数据库地址,修改MONGO_URI如下所示:

MONGO_URI = ‘mongodb://admin:[email protected]:27017‘

此处地址可以修改为自己的远程MongoDB数据库地址。

这样项目的配置就完成了。

五、构建镜像

接下来我们构建Docker镜像,执行如下命令:

docker build -t quotes:latest .

执行过程中的输出如下所示:

Sending build context to Docker daemon 191.5 kB
Step 1/6 : FROM python:3.6
 ---> 968120d8cbe8
Step 2/6 : ENV PATH /usr/local/bin:$PATH
 ---> Using cache
 ---> 387abbba1189
Step 3/6 : ADD . /code
 ---> a844ee0db9c6
Removing intermediate container 4dc41779c573
Step 4/6 : WORKDIR /code
 ---> 619b2c064ae9
Removing intermediate container bcd7cd7f7337
Step 5/6 : RUN pip3 install -r requirements.txt
 ---> Running in 9452c83a12c5
...
Removing intermediate container 9452c83a12c5
Step 6/6 : CMD scrapy crawl quotes
 ---> Running in c092b5557ab8
 ---> c8101aca6e2a
Removing intermediate container c092b5557ab8
Successfully built c8101aca6e2a

这样的输出就说明镜像构建成功。这时我们查看一下构建的镜像,如下所示:

docker images

返回结果中的一行代码如下所示:

quotes  latest  41c8499ce210    2 minutes ago   769 MB

这就是我们新构建的镜像。

六、运行

镜像可以先在本地测试运行,我们执行如下命令:

docker run quotes

这样我们就利用此镜像新建并运行了一个Docker容器,运行效果完全一致,如下图所示。

如果出现类似图上的运行结果,这就证明构建的镜像没有问题。

七、推送至Docker Hub

构建完成之后,我们可以将镜像Push到Docker镜像托管平台,如Docker Hub或者私有的Docker Registry等,这样我们就可以从远程服务器下拉镜像并运行了。

以Docker Hub为例,如果项目包含一些私有的连接信息(如数据库),我们最好将Repository设为私有或者直接放到私有的Docker Registry。

首先在https://hub.docker.com注册一个账号,新建一个Repository,名为quotes。比如,我的用户名为germey,新建的Repository名为quotes,那么此Repository的地址就可以用germey/quotes来表示。

为新建的镜像打一个标签,命令如下所示:

docker tag quotes:latest germey/quotes:latest

Push镜像到Docker Hub即可,命令如下所示:

docker push germey/quotes

Docker Hub便会出现新Push的Docker镜像了,如下图所示。

如果我们想在其他的主机上运行这个镜像,主机上装好Docker后,可以直接执行如下命令:

docker run germey/quotes

这样就会自动下载镜像,启动容器运行。不需要配置Python环境,不需要关心版本冲突问题。

运行效果如下图所示。

整个项目爬取完成后,数据就可以存储到指定的数据库中。

八、结语

我们讲解了将Scrapy项目制作成Docker镜像并部署到远程服务器运行的过程。使用此种方式,我们在本节开头所列出的问题都迎刃而解。

点击获取Python学习资料跳转链接

原文地址:https://www.cnblogs.com/housheng/p/9772970.html

时间: 2024-11-10 15:51:23

Python架构师手把手教你Scrapy 对接 Docker的相关文章

年薪50万的Python架构师 不是梦

年薪50万的Python架构师 不是梦 秒杀系统涉及主要技术有: Pytho Django 开发:Django web 页面静态化:Python Redis Sentinel(哨兵)集群开发:Redis 管道.事务实现对秒杀库库的管理:Redis队列对访问流量进行分流:Redis Sentinel(哨兵)集群:Nginx 负载均衡.反向代理等:高并发的Gunicorn web应用服务:Supervisor管理进程:Django应用部署:分布式集群部署:......对相关技术有兴趣的,可访问我们的

Python数据分析:手把手教你用Pandas生成可视化图表

大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事.但自从Python进入3.0时代以后,pandas的使用变得更加普及,它的身影经常见于市场分析.爬虫.金融分析以及科学计算中. 作为数据分析工具的集大成者,pandas作者曾说,pandas中的可视化功能比plt更加简便和功能强大.实际上,如果是对图表细节有极高要求,那么建议大家使用matplotlib通过底层图表模块进行编码.当然,我

架构师成长之路(1)--什么是架构师

前言: 哲学家常思考的问题:" 我是谁?"" 我从哪里来?"" 要到哪里去?不只是哲学家,我想每个人都有自己对这三个问题的认知. 如果我们要成为架构师,我们自己要面临的三大问题:找准自己定位:我是谁?在哪里?怎样做好架构师:我要做什么?如何搭建架构师知识体系:我该怎么做? 这里面就是做事方法论:目标(我要做什么),方法(计划)(我该怎么做), ?执行/行动 1.架构师定义 ? ? 什么是架构师,这个聊架构话题时永恒的问题.每个公司对架构师的定位也有所不同,

Java架构师之路:从Java码农到年薪八十万的架构师,最牛Java架构师进阶路线

从Java码农到年薪八十万的架构师,资深架构师大牛给予Java技术提升学习路线建议,如何成为一名资深Java架构师? 对于工作多年的程序员而言,日后的职业发展无非是继续专精技术.转型管理和晋升架构师三种选择.架构师在一家公司有多重要.优秀架构师需要具备怎样的素质以及架构师的发展现状三个方面来分析 程序员如何才能晋升为优秀的高薪架构师? 希望通过本文让程序员们了解架构师的市场行情,了解架构师的发展前景,并帮助你更清晰地做出职业规划. 架构师在一家公司有多重要 架构师在公司中担当着「IT架构灵魂人物

手把手教你用python打造网易公开课视频下载软件3-对抓取的数据进行处理

上篇讲到抓取的数据保存到rawhtml变量中,然后通过编码最终保存到html变量当中,那么html变量还会有什么问题吗?当然会有了,例如可能html变量中的保存的抓取的页面源代码可能有些标签没有关闭标签,例如<div>hello</,这样的错误,那么怎么处理呢?接着看下面的代码: soup=BeautifulSoup(html) 其中利用模块BeautifulSoap,可能很方便去整理html源文件内容,这里我写了个小例子,大家看一下,代码如下: html='<html>&l

手把手教你用python打造网易公开课视频下载软件4-图形化界面

上一篇讲解完函数:def getdownLoadInfo (url): 传入公开课的url地址,就可以提取课程的信息,这一篇讲解一下如何编写图像化界面.大概思考一下图像化界面需要的内容: (1)一个标签:显示为:"请输入公开课地址" (2)一个文本框:用来输入地址 (3)一个按钮:点击用来提取视频信息 (4)一个标签和多行文本框,其中标签用来显示课程信息,多行文本用来显示下载链接 完成后的效果图如下: 我们先贴出代码: #创建APP app=wx.App(False) #创建frame

手把手教你:解决python UnicodeDecodeError: &#39;gb2312&#39; codec can&#39;t decode问题

问题:UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 2-3: illegal multibyte sequence 原因:python在做将普通字符串转换为unicode对象时, 例如:u_string = unicode(string , "gb2312"),如果你的字符串string中有诸如某些繁体字,例如"河滘小学" 中的滘,那么gb2312作为简体中文编码是不能进行解析的,

手把手教你架构3D游戏引擎

最近利用空闲的时间写了一本针对程序员开发3D游戏引擎的书籍,<手把手教你架构3D游戏引擎> 电子工业出版社,里面涉及到向量变换,矩阵变换,固定流水线的实现.给读者揭秘引擎的底层封装实现,对于学习者非常容易上手,可以做到举一反三,再学习其它引擎就会得心应手.目前在天猫,京东等各大网站有售,网址: https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.2.FFMx82&id=542498976531&areaId=3

百度微服务架构师随手笔记:教你如何手写Docker

模拟Docker实现一个简单的容器,不到 200行代码(包括空行.注释.异常处理),这并不是吹牛B.容器技术几乎是Linux kernel内置的模块,我们简单调用一下API就能搞定很多事情.当然你要考虑各种商业因素.政治因素那就会成长为Docker这种量级的代码量了. 盗用一下朋友圈里的段子:小公司与大公司的区别就是,以杀猪为例,小公司是找到猪直接乱刀砍死.大公司要先做一套笼具抓猪,再做一套流程磨刀,再发明一套刀法(工程师通常会就刀法争论很久)杀猪.抓猪的笼具除了能抓猪还能抓跳骚,磨刀的工具除了