SCRAPY配置

1  yum groupinstall "Development tools"

2  yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel

       wget https://www.python.org/ftp/python/2.7.11/Python-2.7.11.tgz
       tar vxf Python-2.7.11.tgz

6  cd Python-2.7.11

8  ./configure --prefix=/usr/local

9  make && make install

10  python -V

      wget  https://bootstrap.pypa.io/get-pip.py --no-check-certificate

11  python get-pip.py

    wget https://pypi.python.org/packages/ff/d4/209f4939c49e31f5524fa0027bf1c8ec3107abaf7c61fdaad704a648c281/setuptools-21.0.0.tar.gz#md5=81964fdb89534118707742e6d1a1ddb4 --no-check-certificate

21  tar zxvf setuptools-21.0.0.tar.gz

23  cd setuptools-21.0.0

24  python setup.py install

25  pip install scrapy

26  cat > myspider.py <<EOF

from scrapy import Spider, Item, Field

class Post(Item):

title = Field()

class BlogSpider(Spider):

name, start_urls = ‘blogspider‘, [‘http://www.cnblogs.com/rwxwsblog/‘]

def parse(self, response):

return [Post(title=e.extract()) for e in response.css("h2 a::text")]

EOF

27  scrapy runspider myspider.py

scrapy startproject gl

时间: 2024-11-06 22:22:59

SCRAPY配置的相关文章

Redis与Scrapy

Redis与Scrapy Redis is an open source, BSD licensed, advanced key-value cache and store. It is often referred to as a data structure server since keys can contain strings, hashes, lists, sets, sorted sets, bitmaps and hyperloglogs. --Redis Home Page 1

深入折腾scrapy之一:环境搭建 beta0.3(2013-2-4更新)

发表于:http://www.ballooncat.com/scrapy-setup.html 最近在深入折腾scrapy,先放出环境搭建教程一枚,随后放出更多关于scrapy配置,扩展方面的教程.教程为beta版,部分细节在实际环境中可能会有出入. 前言: 1.系统centos5.5,默认安装了python2.4,需要升级到python2.7+ 安装教程包括: sqlite3 + python2.7.3 + mysql5.1.55 + sphinx2.0.6 + easy_install +

python爬取并下载麦子学院所有视频教程

一.主要思路 scrapy爬取是有课程地址及名称 使用multiprocessing进行下载 就是为了爬点视频,所以是简单的代码堆砌 想而未实行,进行共享的方式 二.文件说明 itemsscray字段 piplines.py存储数据库 setting.py scrapy配置 需要注意的是DEFAULT_REQUEST_HEADERS的设置,需要模拟登录 mz.py是主要爬虫 都是基本的爬虫功能,css+xpath+正则 start_urls = ["http://www.maiziedu.com

Scrapyd发布爬虫的工具

Scrapyd Scrapyd是部署和运行Scrapy.spider的应用程序.它使您能够使用JSON API部署(上传)您的项目并控制其spider. Scrapyd-client Scrapyd-client是一个专门用来发布scrapy爬虫的工具,安装该程序之后会自动在python目录\scripts安装一个名为scrapyd-deploy的工具 (其实打开该文件,可以发现它是一个类似setup.py的python脚本,所以可以通过python scrapyd-deploy的方式运行) 下

基于 Scrapy-redis 的分布式爬虫详细设计

基于 Scrapy-redis 的分布式爬虫设计 目录 前言 安装 环境 Debian / Ubuntu / Deepin 下安装 Windows 下安装 基本使用 初始化项目 创建爬虫 运行爬虫 爬取结果 进阶使用 分布式爬虫 anti-anti-spider URL Filter 总结 相关资料 前言 在本篇中,我假定您已经熟悉并安装了 Python3. 如若不然,请参考 Python 入门指南. 关于 Scrapy Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可

Python中scrapy框架如何安装配置

在python学习群里发现很多学习网络爬虫技术的童靴都搞不懂python爬虫框架scrapy的安装配置,在学习python网络爬虫初级阶段的时候我们利用urllib和urllib2库以及正则表达式就可以完成了,不过遇到更加强大的爬虫工具--爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows平台: 我的系统是Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/l

Windows10 python 3.5 Scrapy 安装配置

学习和使用python也有2年有余,一直在cnblogs里面寻求各种问题的解决方案,还未真正的记录下自己学习.思索的点点滴滴:从今天开始将自己的学习或者实践分享出来,其目的有二:1.监督自己不断学习,不断总结:2.将自己知道的分享出来,为后来者贡献一点儿绵薄之力.言归正传,今天首记录下Scrapy的安装和配置. 正如标题所示:我目前的操作系统和python软件分别是:windows 10 和 python 3.5,所以介绍的是基于以上环境的scrapy安装. 1.安装Twisted a.首先下载

Python爬虫进阶三之Scrapy框架安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1.安装Python 安装过程我就不多说啦,我的电

爬虫6:Scrapy的安装与配置(win8 + python2.7.12)

我的系统是Win8 Python的版本是2.7.12 Scrapy需要依赖的包很多,所以之前在网上看教程的时候,很多教程总是说先安装啥,再安装啥,其实最终就是一句 pip install scrapy 就可以解决了,因为pip会自动去下载需要的包依赖 我主要是想讲我在配置途中遇到的一些问题 第一个问题 pip install scrapy过程中报Microsoft Visual C++ 9.0 is required < Unable to find vcvarsall.bat>的错误 解决办