scrapy系列(一)——安装

scrapy作为一个成熟的爬虫框架,网上有大量的相关教程供大家选择,尤其是关于其的安装步骤更是丰富的很。在这里我想记录下自己的相关经验,希望能给大家带来点帮助。

在scrapy0.24版之前,安装scrapy前需要自己手动安装它的相关依赖,尤其是在windows上,更是有很多坑,甚至会和注册表信息有关系。随着新版本的推出,它的安装也越来越人性化,大部分依赖会自己解决。那么本文就基于最新的scrapy1.2在windows上的安装来举例讲解。

首先来看看官方文档给出的相关步骤:

在scrapy1.1及以后,其已经支持python3的环境了,不过需要python3.3及以上版本。但是在windows环境中仍然只支持python2.7,至于原因上图中的Note已经给出说明:Twisted 在windows中不支持python3。

所以第一步需要安装python2.7,至于其安装和环境变量的添加这里就不再细说了,网上已经烂大街了。不过还是建议大家安装python2.7.9及以上的Python2版本,因为里面自带pip,这样就省了大家执行关于pip的安装操作了。

根据文档下载并运行pywin32,然后就可以输入命令安装scrapy了, pip install scrapy。

就是这样,仍然发生了不可预知的错误。首先pip install的时候需要换源,不然下载东西会超时或者不能找到合适的模块。至于换源这里简单的说一下,如果想要临时的使用新源的话,可以输入命令:

pip install scrapy -i https://pypi.douban.com/simple

如果想要永久的使用新源的话需要在配置文件pip.conf中写入:

[global]
index-url = https://pypi.douban.com/simple

之后安装的scrapy可能会因为种种原因导致某些模块没有安装成功,最后安装失败。那么就需要根据log信息挨个去补充安装,实在是十分麻烦。

那有没有傻瓜式的一步安装呢?只需要输入一条指令就可以安装scrapy呢?

答案是肯定的。官方文档介绍了另一种方法:

那么Anaconda是个什么东西呢?

Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。之前在windows环境中安装pandas,PIL等真心的不容易,用了它以后一切都那么的轻松。

我们可以到其官网去下载这个软件,选择适合你环境的版本。然后就像普通的软件一样双击运行安装,你可以在弹出的高级选项中全部打钩,这样就不用自己去添加环境变量了。

安装成功以后,打开cmd,输入conda install scrapy 就可以安装了。

但是当我的环境为windows64位,python2.7也是64位时,按照上述命令安装scrapy以后,运行scrapy时报错:

出现上述错误的解决方法是:将C:\OpenSSL-Win32\bin中的libeay32.dll和ssleay32.dll放到C:\windows\system32下。这样scrapy就可以正常运行了。如果没有OpenSSL-Win32,那就去网上下一个,或者在C:\windows\system32文件夹下删除libeay32.dll和ssleay32.dll,最好还是替换,删除可能会引起其他的问题。

				
时间: 2024-07-28 17:59:50

scrapy系列(一)——安装的相关文章

Python中scrapy框架如何安装配置

在python学习群里发现很多学习网络爬虫技术的童靴都搞不懂python爬虫框架scrapy的安装配置,在学习python网络爬虫初级阶段的时候我们利用urllib和urllib2库以及正则表达式就可以完成了,不过遇到更加强大的爬虫工具--爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows平台: 我的系统是Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/l

解决ArcGIS 10.1系列软件安装运行的相关问题

(Destop) 1.卸载旧版本软件,ArcGIS Destop要最后卸载,还有清除注册表 2.要安装破解版本里面的Lisence Manager 3.安装顺序Lisence Manager->Destop->,注意装完LisenceManager后,要停止服务,然后安装Destop,然后把许可文件覆盖到LisenceManager的bin文件下面的service.txt,然后启动服务,重读许可 4.打开ArcGIS Administrator,选择Advanced (ArcInfo)浮动版,

System Center 2012 R2 CM系列之安装Configuration Manager预装软件

安装Configuration Manager 2012 R2 预装软件 本章节主要描述创建Configuration Manager 2012 R2所必须的system container.设计Configuration Manager 2012 R2服务器权限.扩展Active Directory架构以及安装安装Configuration Manager 2012 R2所必须的服务器角色和功能 1. 创建系统管理对象 1) 使用管理员账户登陆"BJ-DC-01" 2) 点击服务器管

scrapy初体验 - 安装遇到的坑及第一个范例

scrapy,python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.scrapy的安装稍显麻烦,不过按照以下步骤去进行,相信你也能很轻松的安装使用scrapy. 安装python2.7 scrapy1.0.3暂时只支持python2.7 # wget https://www.python.org/ftp/python/2.7.6/Python-2.7.6.tgz [[email pro

Python之Scrapy爬虫框架安装及简单使用

题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. 本文档将

pig学习系列1——安装

1.pig安装 1)解压,重命名.设置环境变量,同hadoop 2)编辑文件$PIG_HOME/conf/pig.properties,增加两行如下内容      fs.default.name=hdfs://hadoop:9000    mapred.job.tracker=hadoop:9001 3)运行$pig 进入grunt shell,在这个下面就可以使用pig latin语言了 pig学习系列1--安装

Saltstack系列之一——安装篇

最近,和暴雪中国区带技术的一个人聊了不少,他们在测试salt,不过目前用的是puppet,服务器数量也快要1000多台.那为什么他们会去考虑测试salt.另谋他法呢,肯定是有salt一定优势的. 其实我对puppet的名声早已经耳濡目染了1年多了,虽然还没去研究过....也知道有同类开源产品saltstack的存在.不过,puppet是由ruby写的,saltstack则是由python编写的,综合下来就选择了研究salt. 国内的博客真是各种抄袭.各种搬啊...真找不到几篇有用的文档和资料.还

【Scrapy框架的安装和基本用法】 𙦑

目录 原文: http://blog.gqylpy.com/gqy/361 @(Scrapy框架的安装和基本用法) 什么是Scrapy? ???????Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经继承了各种功能(高性能异步下载.队列.分布式.解析.持久化等)的具有很强通用性的项目模板.对于框架的研究,重点在于研究其框架的特性.各个功能的用法即可. 开始安装 如果是Windows系统,应按照下面的顺序进行安装: pip3 insta

scrapy框架的安装

# 1.在安装scrapy前需要安装好相应的依赖库, 再安装scrapy, 具体安装步骤如下: (1).安装lxml库: pip install lxml (2).安装wheel: pip install wheel (3).安装twisted: pip install twisted文件路径 (twisted需下载后本地安装,下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted) (版本选择如下图,版本后面有解释,请根据自己实际选择)