Scrapy爬虫架构安装过程

水平有限,慢慢成长中。

环境:

win 8.1

python 2.7.11

官方的相关的指南,相对有些简单:

http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/install.html#intro-install

注:红色字体为命令。

过程:

1 安装下载python2.7

www.python.org(注意安装的时候选择将安装目录加入到系统路径中)

2 安装依赖插件

大于2.7.9的python2都带有pip,2.7.11的pip默认版本是7.1.2,pip所依赖的东西也都安装好了,比较简单。

在CMD里面输入pip --version,可以查看pip的版本。

可以执行python -m pip install --upgrade pip更新一下pip。

从 http://sourceforge.net/projects/pywin32/安装pywin32,确认下载符合您系统(win32或者amd64) 和python的版本,默认会是32位的。

如果下载了一个版本32/64提示找不到python的安装目录,可以尝试换另一个版本。

下载后得到一个可执行程序。

3 通过pip安装Scrapy

pip install Scrapy

安装完成后,在命令行CMD里面输入Scrapy,成功则进入Scrapy程序。

运行Scrapy的结果:

可能遇到的问题:
1 提示ASCII codec can‘t decode.....
这是一个编码之间的错误。

解决方法:在python安装目录里面找到Lib/mimetypes.py  编辑器打开在代码开头的import下面写入如下代码(注意后两句的缩进):
if sys.getdefaultencoding()!=‘gbk‘:
reload(sys)
sys.setdefaultencoding(‘gbk‘)
2 安装中失败,最后一句有“Unable to find vcvarsall.bat”或者“VC90”字眼的错误
主要是几个辅助程序,如Twisted,需要编译C文件导致的

解决方法:到这个地方下载相应文件安装即可,本人电脑安装的是VC2013,安装过后没有再报错
https://www.microsoft.com/en-us/download/details.aspx?id=44266

时间: 2024-08-08 09:39:14

Scrapy爬虫架构安装过程的相关文章

Python之Scrapy爬虫框架安装及简单使用

题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. 本文档将

Python Scrapy爬虫框架安装、配置及实践

近期研究业界安卓APP主要漏洞类型.wooyun算是国内最有名的漏洞报告平台,总结一下这上面的漏洞数据对后面测试与分析漏洞趋势有指导意义,因此写一个爬虫. 不再造轮子了,使用Python的Scrapy框架实现之. 一.安装 64位系统安装时,一定要注意Python的位数与Scrapy及其依赖库位数一致.否则各种坑爹Bug 安装32位Python 2.7 下载并安装pip(方便自动安装管理依赖库) https://pypi.python.org/pypi/pip/7.1.2 下载源码,python

Python中scrapy框架如何安装配置

在python学习群里发现很多学习网络爬虫技术的童靴都搞不懂python爬虫框架scrapy的安装配置,在学习python网络爬虫初级阶段的时候我们利用urllib和urllib2库以及正则表达式就可以完成了,不过遇到更加强大的爬虫工具--爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows平台: 我的系统是Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/l

一个咸鱼的python爬虫之路(五):scrapy 爬虫框架

介绍一下scrapy 爬虫框架 安装方法 pip install scrapy 就可以实现安装了.我自己用anaconda 命令为conda install scrapy. 1 Engine从Spider处获得爬取请求(Request)2Engine将爬取请求转发给Scheduler,用于调度 3 Engine从Scheduler处获得下一个要爬取的请求4 Engine将爬取请求通过中间件发送给Downloader5 爬取网页后,Downloader形成响应(Response)通过中间件发给En

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

scrapy框架简介 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.(引用自:百度百科) scrapy官方网站:https://scrapy.org/ scrapy官方文档:https://doc.scrapy.org/en/latest/ scrapy框架安装 首先我们安装scrapy,使用如下命令 pip install scrapy 此时很多人应该都会遇到如

win7中python3.4下安装scrapy爬虫框架(亲测可用)

貌似最新的scrapy已经支持python3,但是错误挺多的,以下为在win7中的安装步骤: 1.首先需要安装Scrapy的依赖包,包括parsel, w3lib, cryptography, pyOpenSSL,twisted,lxml 其中,twisted和lxml的安装包可以在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应的安装包(我的是win64,python34) pip install Twisted-17.1.0-cp34-cp34m-

Scrapy爬虫去重效率优化之Bloom Filter的算法的对接

首先回顾一下Scrapy-Redis的去重机制.Scrapy-Redis将Request的指纹存储到了Redis集合中,每个指纹的长度为40,例如27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61就是一个指纹,它的每一位都是16进制数. 我们计算一下用这种方式耗费的存储空间.每个十六进制数占用4 b,1个指纹用40个十六进制数表示,占用空间为20 B,1万个指纹即占用空间200 KB,1亿个指纹占用2 GB.当爬取数量达到上亿级别时,Redis的占用的内存就会变得很

scrapy爬虫1--基础设置篇

scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用. 这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆. scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为python版本,vc++版本以及scrapy版本的兼容性引起的. 这里也附上我的安装及运行环境:windows7+python2.6+Microsoft Visual Studio 2010+scrapy

【转】Scrapy研究探索(三)——Scrapy核心架构与代码运行分析

转自 http://blog.csdn.net/u012150179/article/details/34441655 学习曲线总是这样,简单例子“浅尝”,在从理论+实践慢慢攻破.理论永远是基础,切记“勿在浮沙筑高台”. 一. 核心架构 关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html. 英文有障碍可查看中文翻译文档,笔者也参与了Scraoy部分文档的翻译,我的翻译GitHub地址:h