Python中scrapy框架如何安装配置

在python学习群里发现很多学习网络爬虫技术的童靴都搞不懂python爬虫框架scrapy的安装配置，在学习python网络爬虫初级阶段的时候我们利用urllib和urllib2库以及正则表达式就可以完成了，不过遇到更加强大的爬虫工具——爬虫框架Scrapy，这安装过程也是煞费苦心哪，在此整理如下。

Windows平台：

我的系统是Win7，首先，你要有Python，我用的是2.7.7版本，Python3相仿，只是一些源文件不同。

官网文档：http://doc.scrapy.org/en/latest/intro/install.html，最权威哒，下面是我的亲身体验过程。

1.安装Python

安装过程我就不多说啦，我的电脑中已经安装了Python 2.7.7版本啦，安装完之后记得配置环境变量，比如我的安装在D盘，D:\python2.7.7，就把以下两个路径添加到Path变量中

D:\python2.7.7;D:\python2.7.7\Scripts

配置好了之后，在命令行中输入python–version，如果没有提示错误，则安装成功

2.安装pywin32

在windows下，必须安装pywin32，安装地址：http://sourceforge.net/projects/pywin32/

下载对应版本的pywin32，直接双击安装即可，安装完毕之后验证：

在python命令行下输入

import win32com

如果没有提示错误，则证明安装成功

3.安装pip

pip是用来安装其他必要包的工具，首先下载get-pip.py

下载好之后，选中该文件所在路径，执行下面的命令

python get-pip.py

执行命令后便会安装好pip，并且同时，它帮你安装了setuptools安装完了之后在命令行中执行pip --version

如果提示如下，说明就安装成功了，如果提示不是内部或外部命令，那么就检查一下环境变量有没有配置好吧，有两个路径。

4.安装pyOPENSSL

在Windows下，是没有预装pyOPENSSL的，而在Linux下是已经安装好的。

安装地址：https://launchpad.net/pyopenssl

5.安装lxml

lxml的详细介绍点我，是一种使用Python编写的库，可以迅速、灵活地处理XML直接执行如下命令

pip install lxml

就可完成安装，如果提示Microsoft Visual C++库没安装，则点我下载支持的库。

6.安装Scrapy

最后就是激动人心的时刻啦，上面的铺垫做好了，我们终于可以享受到胜利的果实啦！

执行如下命令

pip install Scrapy

pip会另外下载其他依赖的包，这些就不要我们手动安装啦，等待一会，大功告成！

7.验证安装

输入Scrapy

如果提示如下命令，就证明安装成功啦，如果失败了，请检查上述步骤有何疏漏。

Linux Ubuntu平台：

Linux下安装非常简单，只需要执行几条命令几个

1.安装Python

sudo apt-get install python2.7 python2.7-dev

2.安装pip

首先下载get-pip.py

下载好之后，选中该文件所在路径，执行下面的命令

sudo python get-pip.py

3.直接安装Scrapy

由于Linux下已经预装了lxml和OPENSSL

如果想验证lxml，可以分别输入

sudo pip install lxml

出现下面的提示这证明已经安装成功

Requirement already satisfied (use --upgrade to upgrade): lxml in /usr/lib/python2.7/dist-packages

如果想验证openssl，则直接输入openssl即可，如果跳转到OPENSSL命令行，则安装成功。

接下来直接安装Scrapy即可

sudo pip install Scrapy

安装完毕之后，输入scrapy

注意，这里linux下不要输入Scrapy，linux依然严格区分大小写的，感谢kamen童鞋提醒。

如果出现如下提示，这证明安装成功

Usage:

scrapy [options] [args]

Available commands:

bench Run quick benchmark test

fetch Fetch a URL using the Scrapy downloader

runspider Run a self-contained spider (without creating a project)

settings Get settings values

shell Interactive scraping console

startproject Create new project

version Print Scrapy version

view Open URL in browser, as seen by Scrapy

[ more ] More commands available when run from project directory

如有问题，欢迎留言！祝各位小伙伴顺利安装！

时间： 2024-10-12 23:41:19

Python中scrapy框架如何安装配置的相关文章

Python中Scrapy框架元素选择器XPath的简单实例

原文标题:<Python网络爬虫-Scrapy的选择器Xpath> 对原文有所修改和演绎优势 XPath相较于CSS选择器,可以更方便的选取没有id class name属性的标签属性或文本特征不显著的标签嵌套层次极其复杂的标签 XPath路径定位方式 / 绝对路径表示从根节点开始选取 // 相对路径表示从任意节点开始基本的节点定位 #查找html下的body下的form下的所有input节点 /html/body/form/input #查找所有input节点 //input

【Scrapy框架的安装和基本用法】 𙦑

目录原文: http://blog.gqylpy.com/gqy/361 @(Scrapy框架的安装和基本用法) 什么是Scrapy? ???????Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经继承了各种功能(高性能异步下载.队列.分布式.解析.持久化等)的具有很强通用性的项目模板.对于框架的研究,重点在于研究其框架的特性.各个功能的用法即可. 开始安装如果是Windows系统,应按照下面的顺序进行安装: pip3 insta

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

操作环境:python3 在上一文中python爬虫scrapy框架--人工识别登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前的文章便于理解本文将介绍如何用scrapy来登录知乎. 不多说,直接上代码: import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhi

asp.Net Core免费开源分布式异常日志收集框架Exceptionless安装配置以及简单使用图文教程

原文:asp.Net Core免费开源分布式异常日志收集框架Exceptionless安装配置以及简单使用图文教程最近在学习张善友老师的NanoFabric 框架的时了解到Exceptionless : https://exceptionless.com/ !因此学习了一下这个开源框架!下面对Exceptionless的学习做下笔记! Exceptionless是什么?能做什么呢? “Exceptionless”这个词的定义是:没有异常.Exceptionless可以为您的ASP.NET.We

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

scrapy框架简介 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.(引用自:百度百科) scrapy官方网站:https://scrapy.org/ scrapy官方文档:https://doc.scrapy.org/en/latest/ scrapy框架安装首先我们安装scrapy,使用如下命令 pip install scrapy 此时很多人应该都会遇到如

安装 CentOs 系统及 Python 及 Scrapy 框架

1: 先安装Centos 系统: 为什么选择CentOs系统,而不选择Ubuntu ? 我在Ubuntu上尝试了三次安装 python 和 Scrapy ,结果都没成功,在运维老王的建议下使用CentOs ; ( 忍不住吐槽一下,python 安装包依赖包安装起来真费劲! ) 2: CentOs安装过程整体安装过程比较顺利 , 比Ubuntu 简单多了 ; 我选择了一个mini的ios 安装之后也没有桌面环境 , 挺好 ,符合需求. 安装好之后的界面: 命令行环境 , 挺好

Python中单元测试框架 Nose的安装

1 安装setuptools download地址: http://pypi.python.org/packages/source/s/setuptools/setuptools-0.6c11.tar.gz #md5=7df2a529a074f613b509fb44feefe74e $ tar xzvf setuptools-0.6c11.tar.gz $ python setup.py install 2 安装coverage download地址: http://pypi.python.or

Python爬虫Scrapy框架入门（0）

想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题以及解决方案吧. 给几个链接吧,我是根据这几个东西来尝试学习的: scrapy中文文档(0.24版,我学习的时候scrapy已经1.1了,也许有些过时): http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html 大神的博客介绍:

ubuntu14.04中spark集群安装配置

一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu14.04中配置Spark