Scrapy爬虫架构安装过程

水平有限，慢慢成长中。

环境：

win 8.1

python 2.7.11

官方的相关的指南，相对有些简单：

http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/install.html#intro-install

注：红色字体为命令。

过程：

1 安装下载python2.7

www.python.org（注意安装的时候选择将安装目录加入到系统路径中）

2 安装依赖插件

大于2.7.9的python2都带有pip，2.7.11的pip默认版本是7.1.2，pip所依赖的东西也都安装好了，比较简单。

在CMD里面输入pip --version，可以查看pip的版本。

可以执行python -m pip install --upgrade pip更新一下pip。

从 http://sourceforge.net/projects/pywin32/安装pywin32，确认下载符合您系统(win32或者amd64) 和python的版本，默认会是32位的。

如果下载了一个版本32/64提示找不到python的安装目录，可以尝试换另一个版本。

下载后得到一个可执行程序。

3 通过pip安装Scrapy

pip install Scrapy

安装完成后，在命令行CMD里面输入Scrapy，成功则进入Scrapy程序。

运行Scrapy的结果：

可能遇到的问题：
1 提示ASCII codec can‘t decode.....
这是一个编码之间的错误。

解决方法：在python安装目录里面找到Lib/mimetypes.py 编辑器打开在代码开头的import下面写入如下代码（注意后两句的缩进）：
if sys.getdefaultencoding()!=‘gbk‘:
reload(sys)
sys.setdefaultencoding(‘gbk‘)
2 安装中失败，最后一句有“Unable to find vcvarsall.bat”或者“VC90”字眼的错误
主要是几个辅助程序，如Twisted，需要编译C文件导致的

解决方法：到这个地方下载相应文件安装即可，本人电脑安装的是VC2013，安装过后没有再报错
https://www.microsoft.com/en-us/download/details.aspx?id=44266

时间： 2024-08-08 09:39:14

Scrapy爬虫架构安装过程的相关文章

Python之Scrapy爬虫框架安装及简单使用

题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. 本文档将

Python Scrapy爬虫框架安装、配置及实践

近期研究业界安卓APP主要漏洞类型.wooyun算是国内最有名的漏洞报告平台,总结一下这上面的漏洞数据对后面测试与分析漏洞趋势有指导意义,因此写一个爬虫. 不再造轮子了,使用Python的Scrapy框架实现之. 一.安装 64位系统安装时,一定要注意Python的位数与Scrapy及其依赖库位数一致.否则各种坑爹Bug 安装32位Python 2.7 下载并安装pip(方便自动安装管理依赖库) https://pypi.python.org/pypi/pip/7.1.2 下载源码,python

Python中scrapy框架如何安装配置

在python学习群里发现很多学习网络爬虫技术的童靴都搞不懂python爬虫框架scrapy的安装配置,在学习python网络爬虫初级阶段的时候我们利用urllib和urllib2库以及正则表达式就可以完成了,不过遇到更加强大的爬虫工具--爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows平台: 我的系统是Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/l

一个咸鱼的python爬虫之路（五）：scrapy 爬虫框架

介绍一下scrapy 爬虫框架安装方法 pip install scrapy 就可以实现安装了.我自己用anaconda 命令为conda install scrapy. 1 Engine从Spider处获得爬取请求(Request)2Engine将爬取请求转发给Scheduler,用于调度 3 Engine从Scheduler处获得下一个要爬取的请求4 Engine将爬取请求通过中间件发送给Downloader5 爬取网页后,Downloader形成响应(Response)通过中间件发给En

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

scrapy框架简介 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.(引用自:百度百科) scrapy官方网站:https://scrapy.org/ scrapy官方文档:https://doc.scrapy.org/en/latest/ scrapy框架安装首先我们安装scrapy,使用如下命令 pip install scrapy 此时很多人应该都会遇到如

win7中python3.4下安装scrapy爬虫框架（亲测可用）

貌似最新的scrapy已经支持python3,但是错误挺多的,以下为在win7中的安装步骤: 1.首先需要安装Scrapy的依赖包,包括parsel, w3lib, cryptography, pyOpenSSL,twisted,lxml 其中,twisted和lxml的安装包可以在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应的安装包(我的是win64,python34) pip install Twisted-17.1.0-cp34-cp34m-

Scrapy爬虫去重效率优化之Bloom Filter的算法的对接

首先回顾一下Scrapy-Redis的去重机制.Scrapy-Redis将Request的指纹存储到了Redis集合中,每个指纹的长度为40,例如27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61就是一个指纹,它的每一位都是16进制数. 我们计算一下用这种方式耗费的存储空间.每个十六进制数占用4 b,1个指纹用40个十六进制数表示,占用空间为20 B,1万个指纹即占用空间200 KB,1亿个指纹占用2 GB.当爬取数量达到上亿级别时,Redis的占用的内存就会变得很

scrapy爬虫1--基础设置篇

scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用. 这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆. scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为python版本,vc++版本以及scrapy版本的兼容性引起的. 这里也附上我的安装及运行环境:windows7+python2.6+Microsoft Visual Studio 2010+scrapy

【转】Scrapy研究探索（三）——Scrapy核心架构与代码运行分析

转自 http://blog.csdn.net/u012150179/article/details/34441655 学习曲线总是这样,简单例子“浅尝”,在从理论+实践慢慢攻破.理论永远是基础,切记“勿在浮沙筑高台”. 一. 核心架构关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html. 英文有障碍可查看中文翻译文档,笔者也参与了Scraoy部分文档的翻译,我的翻译GitHub地址:h

猜你喜欢

Linux内存管理【转】

转自:http://blog.chinaunix.net/uid-25909619-id-4491368.html Linux内存管理摘要:本章首先以应用程序开发者的角度审视Linux的进程内存管理 ...

CentOS下OpenVPN安装、配置

安装OpenVPN的前提条件在安装OpenVPN之前你必须确保你已经安装了C编译器(例如gcc).OpenSSL.LZO(一种无损压缩算法).PAM(一种可插入式的身份验证模块),安装方法就不用再说 ...

批量插入 SqlBulkCopy的测试

关于SqlBulkCopy的测试最近要做.net关于sql大量插入,找到了sqlbulkcopy(自己google下,应该很多说明了)这个好东西,于是测试下性能,用了三个方法对比: 1)直接用ado ...

一个基于nginx的HLS简单服务器搭建

一,首先搭建nginx服务器: 1.1,选定源码目录选定目录 /usr/local/HLS cd /usr/local/HLS 1.2,安装PCRE库 cd /usr/local/HLS 到www. ...

IOS 点击空白处隐藏键盘的几种方法

第一种: 使用view的touchesBegan:触摸事件来实现对键盘的隐藏,当点击view的区域就会触发这个事件 -(void) touchesBegan:(NSSet *)touches with ...

kafka设计原理介绍

背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐 ...

Personal Learning Path of Java——Java语言基础

Java语言是面向对象编程语言,Java程序的基本组成单元是类,类体中又包括属性和方法两部分.每一个程序都必须包含一个main()方法,含有main()方法的类称为主类. 如下面代码: 1 packa ...

【json的使用】

1.json格式字符串: Java代码 /** 操作成功 200 */ public static final String RESULT_SUCCESS = "{\"code\& ...

Adding Gravity to your UI Components

Problem You want your UI components to have gravity, so that if they are dragged up to the top of th ...

结构体输入学号姓名身高按身高从高到低排序

linux下建立回收站防止误删除及定期清空

功能描述: 我们都知道linux不同于windows的一点是Windows有回收站机制,这样如果我们想将之前删掉的一个文件还原直接到回收站里就可以实现,这给了我们一次反悔的机会.所以我考虑在我的lin ...

JAVA解析EXCEL(2003和2007)

本文参考: http://wenku.baidu.com/view/707f07d95022aaea998f0fd1.html http://surfingforrest.iteye.com/blog ...

Linux系统网络知识 -- 第一部

1丶初始网络网络的体系是一个庞大的体系,涉及到路由交换,安全,无线,语言,数据中心等等多个方面. ①网络基础知识:涉及到网络的发展历程,网络的一些名词概念,路由交换介绍 ②OSI七层模型的介绍 ③T ...

如何做好基层技术管理工作？

最近有朋友与我探讨了软件基层技术管理工作方面的话题,借此从动机和方法两方面谈谈我的看法. 动机要做好基层技术管理工作,首先要确保自己有良好的动机,即明白自己为何要走上技术管理岗位.做管理的根本是为了 ...

MyBitis(iBitis)系列随笔之一：MyBitis入门实例

MyBits前身是iBitis,相对于Hibernate而言,它是半自动化ORM框架.本着分享和学习的目的,笔者将陆续把学习笔记与代码贴出,希望对想学习mybitis的同窗们有所帮助. 鉴 ...

实现功能比较齐全的 UITextField

实现功能比较齐全的 UITextField 实现功能比较齐全的 UITextField 输入表单,具体功能包括:输入有效性判断(Validation).键盘工具条(Toolbar).表单滑动避免被弹出 ...

安卓AVD使用建议

问题描述:之前在安装了Android开发环境后,一开始并没有直接在Android手机和平板上进行调试,是使用的AVD模拟器工具.由于电脑的配置不是特别好,总感觉AVD的使用速度太慢,包括启动的时候还有 ...

linux下性能测试工具netperf使用

一.功能简介 netperf是一款针对网络性能的测试工具,主要基于TCP或UDP的传输.根据应用的不同,可以进行批量数据传输(bulk data transfer)模式和请求/应答(request/r ...

maven初步了解

目标:创建一个父maven项目,有两个子项目分别为serverCenter,dbConnector. 建议:全程不要导入Jar包,全部使用maven依赖的方式导入包. 1.创建maven项目这个创建 ...

HDU 5335 Walk Out （搜索+贪心，超详解）经典

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5335 题面: Walk Out Time Limit: 2000/1000 MS (Java/Othe ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.