如何安装Scrapy及创建新项目

今天给大家写了一个Scrapy入门教程,帮助大家安装Scrapy和创建新项目。

1、 首先需要安装如下软件
Python 2.7
lxml
OpenSSL
pip or easy_install

2、 安装必备软件
sudo apt-get install libevent-dev
sudo apt-get install python-dev
sudo apt-get install libxml2-dev
sudo apt-get install libxslt1-dev
sudo apt-get install python-setuptools
<!-- more -->

3、安装Scrapy
sudo apt-get install Scrapy

创建项目

以爬取mininova中的EBOOK种子链接、名称、大小为例
1、进入存储代码的目录中,运行下列命令
scrapy startproject mininova
该命令将会创建包含下列内容的mininova目录

mininova/

scrapy.cfg

mininova/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

...

这些文件分别是:

scrapy.cfg:项目的配置文件

mininova/:该项目的python模块。

mininova/items.py:项目中的item文件

mininova/pipelines.py:项目中pipelines文件

mininova/settings.py:项目的设置文件

mininova/spiders/:放置spider代码的目录

2、定义Item
编辑mininova目录中的items.py文件:

import scrapy

class MininovaItem(scrapy.Item):

title = scrapy.Field()

link = scrapy.Field()

size = scrapy.Field()

3、编写第一个爬虫(Spider)
为了创建一个Spider,必须继承scrapy.Spider类,且定义一下三个属性:

name:用于区别Spider。该名字必须是唯一的,不可以为不同的Spider设定相同的名字。

start_urls:包含了Spider在启动时进行爬取的url列表。因此,第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。

parse():是spider的一个方法。被调用时,每个初始URL完成下载后生成的Response对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的Request对象。

以下为我们的第一个Spider代码,保存在mininova/spiders目录下的mininova_spider.py文件中:

import scrapyfrom mininova.items import MininovaItem

class MininovaSpider(scrapy.Spider):

name = ’mininova’

allowed_domains = [’mininova.org’]

start_urls = [’http://www.mininova.org/sub/50/name/1’]

def parse(self,response):

sites = response.xpath(’//table[@class="maintable"]//tr’)

for site in sites:

item = MininovaItem()

item[’title’] = site.xpath(’td/a[not(@class="ti com")]/text()’).extract()

for url in site.xpath(’td/a[@class="dl"]/@href’).extract():

item[’link’] = ’http://www.mininova.org’ + url

for size in site.xpath(’td[3]/text()’).extract():

size = size.encode(’utf-8’)

item[’size’] = size.replace(’\xc2\xa0’,’’)

yield item

4、爬取
进入项目的根目录,执行下列命令启动spider:
scrapy crawl mininova
5、保存爬取到的数据
scrapy crawl mininova -o items.json

原文来自:简书/迷途老鹰

时间: 2024-12-14 18:13:15

如何安装Scrapy及创建新项目的相关文章

cocos2d-x3.2创建新项目失败的一种可能性(cygwin自带的python2.6被抢先执行)

之前一直使用cocos2d-x2.2写游戏,写了几个游戏后,想尝试下3.x版本的新功能,就下载了cocos2d-x3.2版本. 参照官方文档的说法,cocos2d-x3.x版本需要python2.7环境支持,python2.6以及python3.x版本都不行,所以特意去python官网下载了2.7.8版本,安装好后进入目录: cocos2d-x-3.2\tools\cocos2d-console\bin 执行命令: python cocos.py new HelloCpp -p com.hell

Android创建新项目及开发

创建一个新项目是很简单的,只要你安装了Eclipse插件,并且你的Eclipse软件版本在3.2或3.3,你就可以开始开发了. 首先, 看一下要创建"Hello, World"程序从高级层面上有哪些步骤: 1, 通过 File -> New -> Project 菜单,建立新项目"Android Project" 2, 填写新项目各种参数. 3, 编辑自动生成的代码模板. 仅此而已,我们通过下面的详细说明来完成每个步骤. 1.创建一个新的Android项

android教程:Android创建新项目及开发

android教程:Android创建新项目及开发,这篇文章是比较简单的知识,比较适合才入门的同学们看,当然,大家也可以来看看我总结的,给小编一点意见,说说你们的看法! 创建一个新项目是很简单的,只要你安装了Eclipse插件,并且你的Eclipse软件版本在3.2或3.3,你就可以开始开发了. 首先, 看一下要创建Hello, World程序从高级层面上有哪些步骤: 1.通过 File -> New -> Project 菜单,建立新项目Android Project 2.填写新项目各种参数

Windows平台cocos2d-x 3.2下载以及创建新项目过程

首先,有关于cocos2d-x在windows下Android环境的搭建, 请参考一位网友的这篇博文<cocos2d-x 3.0rc开发指南:Windows下Android环境搭建>. 这里简单列一下所需工具的下载地址: 1.JDK 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 2.ADT(Android Developer Tools),里面包含了SDK和Eclipse. 下载地址是:http:

【系统安装】安装程序无法创建新的系统分区

安装程序无法创建新的系统分区,也无法定位现有系统分区 可以进入pe后把minipe文件夹复制到D盘,然后重启,就自动加载D盘的外置了,这时候直接拔掉U盘,然后运行win7安装程序, 只需要一步,就可轻松解决,在win7安装到选择硬盘时,如果出现题目中的问题,别急,你先格式化一下你要装的那个盘,然后,拔出U盘,啥也别动,只拔出U盘究行,再装上U盘,然后刷新一下[选硬盘那里的高级选项中有格式化和刷新],再选择要安装的硬盘点下一步,OK了,可以正常安装了,希望看到此问题的朋友互相转载一下,不要把这个问

2013 Mac Air 装Win7双系统问题-安装程序无法创建新的分区,也无法定位系统 &amp; Windows无法安装所需的文件,错误代码0x80070570

此非主讲安装过程,主说明过程中遇到的两个问题自己的解决方式. 准备: 准备以下Win7纯净版iso镜像,用Boot Camp方式安装Windows到16GU盘. Win7纯净版资源 问题一: Boot Camp开始分区安装后,进放Windows安装界面,在加载完之前下的驱动和点南完格式化选项后显示 : 安装程序无法创建新的分区,也无法定位系统 . 1)  出现此问题后,参考以下链接. http://support.apple.com/zh-cn/TS4599 苹果官方说明 http://www.

关于HP DL380e服务器安装提示“安装程序无法创建新的系统分区也无法定位”

这里将刚刚遇到的一个服务器安装问题总结一下,以便自己后续使用,事实证明,几篇关于服务器的博文,收益最多的还是自己,因为每次都有不一样的问题,每次都在翻这些文章,所以我明白今天记下这个问题的重要性,Just for me!!! 说明一下,此类问题较为普遍,可能不是最优解,但是这里提供一下个人的见解,毕竟我个人在这个问题上成功了! 机型:HPDL380e 初始RAID:RAID1 本次安装的镜像为Server08 SP2,使用U盘刻录的镜像完成 再次说下吧,惠普的机器,F9是主板设置(可能不准确,但

“安装程序无法创建新的系统分区,也无法定位现有分区”的解决方案

walker在安装原版Windows Server 2008 R2时遇到"安装程序无法创建新的系统分区,也无法定位现有分区"问题,记录一下解决过程. 1.shift+F10进入命令行,用diskpart相关命令(active)激活C盘分区. 2.用U盘进入PE系统. (1).将原版ISO文件解压后的boot(文件夹).sources(文件夹).bootmgr(文件)拷贝到C盘. (2).在PE的命令行里面执行命令修复引导扇区:c:\boot\bootsect.exe /nt60 c:.

安装程序无法创建新的系统分区

安装程序无法创建新的系统分区解决方法---------------------------------------------------------------- 第四步(最关键一步):从你解压的安装程序的文件夹中找到boot , bootmgr 和sources这三个文件,并且复制到C盘根目录下.第五步:在win pe系统中运行cmd ,输入“ c:\boot\bootsect.exe /nt60 c: ”(注意exe和/nt60./nt60和c:之间有空格),然后回车,看到提示succes