scrapy1.1入门用例简介

今天将scrapy安装成功,测试了下,倒腾了好长时间,才倒腾成功,特此分享。

其实最好的老师就是scrapy的帮助文档,只要把文档看懂,照着做,也就啥都会儿了!

帮助文档下载见http://download.csdn.net/detail/flyinghorse_2012/9566467

0.新建立一个文件夹,用来存放相关文件,命名为test

1.构建scrapy project

运行命令:

scrapy startproject tutorial

效果如下:

2.构建spider

运行如下命令:

scrapy genspider dmoz dmoz.org

格式要求说明:scrapy genspider spidername spiderwebsite

spidername必须为唯一,spiderwebsite可随便制定,对应dmoz.py中的allowed_domains.

效果如下:

3.修改items.py

找到....test\tutorial\tutorial\items.py,修改文件内容为:

import scrapy

class TutorialItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()

保存。

4.修改dmoz.py

找到....\test\tutorial\tutorial\spiders\dmoz.py,修改文件内容为:

# -*- coding: utf-8 -*-
import scrapy

class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = (
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
)

def parse(self, response):
filename = response.url.split("/")[-2] + ‘.html‘
with open(filename, ‘wb‘) as f:
f.write(response.body)

保存。

5.运行爬虫

scrapy crawl dmoz

格式要求说明:scrapy crawl spidername

spidername即为step2中的spidername。

效果如下:

已成功生成2个html文件,网页内容已被抓取到。

时间: 2024-09-29 16:39:40

scrapy1.1入门用例简介的相关文章

scrapy1.1入门用例简介-2

写一个小的scrapy project,爬取相关网页内容并保存为.json文件 0.创建project,genspider等. 1.修改items.py,内容如下: 2.修改dmoz.py,内容如下: 3.运行爬虫,结果如下: 已成功爬取到网页内容,并保存为.json格式文件.

ASP.NET MVC 入门1、简介

什么是MVC模式 MVC(Model-View-Controller,模型—视图—控制器模式)用于表示一种软件架构模式.它把软件系统分为三个基本部分:模型(Model),视图(View)和控制器(Controller). 那么MVC模式和我们熟悉的WebForm模式有什么不同呢?他的各个部分又是怎样分工的呢? 我们先来看一下普通的WebForm模式下,我们请求一个例如http://www.51mvc.com/blog/index.aspx的URL,那么我们的WebForm程序会到网站根目录下去寻

Ember.js 入门指南——model简介2

本文接上一篇<Ember.js 入门指南--model简介1>. 2,核心概念 声明:下面简介内摘抄至http://www.emberjs.cn/guides/models/#toc_. 1,store store是应用存放记录的中心仓库.你可以认为store是应用的所有数据的缓存.应用的控制器和路由都可以访问这个共享的store:当它们需要显示或者修改一个记录时,首先就需要访问store. DS.Store的实例会被自动创建,并且该实例被应用中所有的对象所共享. store可以看做是一个缓存

5、Cocos2dx 3.0游戏开发找小三之测试样例简介及小结

重开发者的劳动成果,转载的时候请务必注明出处:http://blog.csdn.net/haomengzhu/article/details/27186557 测试样例简介 Cocos2d-x 为我们提供了十分丰富的测试样例,这些测试样例是在引擎开发过程中为测试引擎的正确性而编写的代码,同时也是演示引擎各个部分如何使用的良好示例. 打开Cocos2d-x根目录下build文件夹下的cocos2d-win32.vc2012.sln解决方案,设置其中的 cpp-tests 项目为启动项目,成功运行后

HTML5菜鸟入门指导:简介、平台搭建、示例演示

HTML5菜鸟入门指导:简介.平台搭建.示例演示 一.HTML5简介 1.  了解HTML (1).什么是HTML? HTML是用来描述网页的一种语言: HTML指超文本标记语言(Hyper Text Markup Language) HTML不是变成语言,是一种标记语言 (2).版本 HTML出现于1991年 HTML+出现于1993年 HTML2.0出现于1995年 HTML3.2出现于1997年 HTML4.01出现于1999年 XHTML1.0出现于2000年 HTML5出现于2012年

SQL Server复制入门(一)----复制简介【转】

SQL Server复制入门(一)----复制简介 简介 SQL Server中的复制(Replication)是SQL Server高可用性的核心功能之一,在我看来,复制指的并不仅仅是一项技术,而是一些列技术的集合,包括从存储转发数据到同步数据到维护数据一致性.使用复制功能不仅仅需要你对业务的熟悉,还需要对复制功能的整体有一个全面的了解,本系列文章旨在对SQL Server中的复制进行一个简单全面的探讨.(PS:在我的上篇文章中我发现某些文章的图片使用mspaint手绘更有感觉,但被很多人吐槽

C#入门220例(第三章)

if else switch while for break continue radiobutton处理代码 if(rbt_true.Checked) { MessageBox.Show("yes"); } else { MessageBox.Show("no"); } 控制台应用程序的设定长以及宽,标题 以及利用for来显示时间(每次显示时间后停留一秒,运行完就清掉信息,再次下一次循环) class Program { static void Main(stri

Spring Boot入门样例-001-Java和Maven安装配置

Spring Boot入门样例-001-Java和Maven安装配置 本文说明Java和Maven在windows下的安装和配置 前言 本Spring Boot入门样例准备工作参考: Spring Boot入门样例-001-Java和Maven安装配置 Spring Boot入门样例-003-idea 安装配置和插件 Spring Boot入门样例-005-如何运行 1. 下载 下载地址:https://www.oracle.com/technetwork/java/javase/downloa

jbpm入门样例

1.      jBPM的简介 jBPM是JBOSS下的一个开源java工作流项目,该项目提供eclipse插件,基于Hibernate实现数据持久化存储. 參考 http://www.jboss.com/products/jbpm 2.      jBPM和myeclipse的冲突 当eclipse安装了myeclipse和jBPM时候,可能有冲突,详细表如今jBPM的流程设计器不能在eclipse中使用. 3.      Hibernate连接mysql数据库的一般參数 以下的配置參数,依据