scrapy (三）各部分意义及框架示意图详解

一、框架示意图

Scrapy由 Python 编写，是一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

二、爬虫人员的主要工作

1、创建一个Scrapy项目

2、定义提取的Item

3、编写爬取网站的 spider 并提取 Item

4、编写 Item Pipeline 来存储提取到的Item(即数据)

三、scrapy基本流程

四、scrapy 框架各部分详解

1、 Scrapy Items ：定义您想抓取的数据

import scrapy

class TorrentItem(scrapy.Item):

name = scrapy.Field()

2、spiders：编写提取数据的Spider

1）：定义初始URL根网址、针对后续链接的规则以及从页面中提取数据的规则（即写正则或xpath等等）。

2）执行spider，获取数据

注：运行spider来获取网站的数据，并以JSON格式存入到scraped_data.json 文件中:

terminal：scrapy crawl mininova -o scraped_data.json

3、编写 item pipeline 将item存储到数据库中

注：

1）、Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理；

2）每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。

3）item pipeline的一些典型应用：

a）清理HTML数据

b）验证爬取的数据(检查item包含某些字段)

c）查重(并丢弃)

4）将爬取结果保存到数据库中

4、编写自己的item pipeline

注：每个item pipiline组件是一个独立的Python类，同时必须实现以下方法:

1）process_item(item, spider)

每个item pipeline组件都需要调用该方法，这个方法必须返回一个 Item (或任何继承类)对象，或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理。

参数:

item (Item 对象) – 被爬取的item

spider (Spider 对象) – 爬取该item的spider

2）open_spider(spider)

当spider被开启时，这个方法被调用。

参数:spider (Spider 对象) – 被开启的spider

3）close_spider(spider)

当spider被关闭时，这个方法被调用

参数:spider (Spider 对象) – 被关闭的spider

5、查看提取到的数据

执行结束后，查看 scraped_data.json , 将看到提取到的item:

注：1）由于 selectors 返回list, 所以值都是以list存储的(除了 url 是直接赋值之外)。

2） Item Loaders ：可以保存单个数据或者对数据执行额外的处理

欢迎关注小婷儿的博客：

csdn：https://blog.csdn.net/u010986753

博客园：http://www.cnblogs.com/xxtalhr/

有问题请在博客下留言或加QQ群：483766429 或联系作者本人 QQ ：87605025

OCP培训说明连接：https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

OCM培训说明连接：https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

重要的事说三遍。。。。。。

原文地址：https://www.cnblogs.com/xxtalhr/p/9170343.html

时间： 2024-11-10 07:44:16

scrapy (三）各部分意义及框架示意图详解的相关文章

测试框架mochajs详解

测试框架mochajs详解章节目录关于单元测试的想法 mocha单元测试框架简介安装mocha 一个简单的例子 mocha支持的断言模块同步代码测试异步代码测试 promise代码测试不建议使用箭头函数钩子函数钩子函数的描述参数异步的钩子函数全局钩子延迟启动测试测试用例TODO 仅执行一个用例集/用例跳过哪些用例集/用例重新执行用例动态生成用例测试时间测试超时用例集执行超时用例执行超时钩子函数超时 diff差异比较功能 mocha使用命令和参数 mocha

Java集合框架Koloboke详解

Java集合框架Koloboke详解作者:chszs,未经博主允许不得转载.经许可的转载需注明作者和博客主页:http://blog.csdn.net/chszs Koloboke的目标是替换标准的Java集合和流的API,提供更高效的实现.Koloboke目前的版本主要是替换java.util.HashSet和java.util.HashMap. Koloboke提供了一套完整的集合原始类型的实现,可以避免开销很大的装箱/拆箱操作,节省了原始类型装箱消耗的内存. 在Koloboke中,Has

S2SH框架集成详解(Struts 2.3.16 + Spring 3.2.6 + Hibernate 3.6.10)

近期集成了一次较新版本的s2sh,出现了不少问题,网上资料也是良莠不齐,有的甚至就是扯淡,简单的把jar包扔进去就以为是集成成功了,在这里整理一下详细的步骤,若哪位有什么不同看法,可以留言,欢迎批评改正. 首先说下集成的环境,Eclipse 4.4,Tomcat 7.0.54,Struts2.3.16,Hibernate3.6.10,Spring3.2.6 相关JAR包已上传至百度云:http://pan.baidu.com/s/1pJluA5l 搭建Struts2框架 1. 创建Java We

yii框架AR详解

yii框架AR详解虽然Yii DAO可以处理事实上任何数据库相关的任务,但很可能我们会花费90%的时间用来编写一些通用的SQL语句来执行CRUD操作(创建,读取,更新和删除). 同时我们也很难维护这些PHP和SQL语句混合的代码,要解决这些问题,我们可以使用Active Record. Active Record(AR)是一种流行的对象关系映射(ORM)技术.每个AR类代表一个数据表(或视图),其字段作为AR类的属性,一个AR实例代表在表中的一行.常见的CRUD操作被作为AR类的方法

Web Service笔记（三）：wsdl 与 soap协议详解

注:1.结合Web Service笔记(二):利用CXF开发Web Service 一.WSDL语言:(web service definition language - web service定义语言) (一)简介: 1.wsdl 是全完基于xml 的,特别是xml schema.详见: XML学习笔记(三):XML规范:Schema详解. 2.wsdl 文档描述了 ws 主要的3个方面: 1)WHATA:该 ws 包含"什么"操作,即有几个方法. 2)HOW:该 ws 的操作应该&

TCP三次握手与四次挥手详解

TCP三次握手与四次挥手详解 @(TCP/IP) [TOC] 1.TCP报文格式 TCP(Transmission Control Protocol) 传输控制协议.TCP是主机对主机层的传输控制协议,提供可靠的连接服务,采用三次握手确认建立一个连接. 我们需要知道TCP在网络OSI的七层模型中的第四层(Transport层),IP在第三层(Network层),第二层(Data Link层),在第二层上的数据,我们叫Frame,在第三层上的数据叫Packet,第四层的数据叫Segment. TC

Hadoop新MapReduce框架Yarn详解

简介本文介绍了Hadoop自0.23.0版本后新的MapReduce框架(Yarn)原理,优势,运行机制和配置方法等,着重介绍新的yarn框架相对于原框架的差异及改进,并通过Demo示例详细介绍了在新的Yarn框架下搭建和开发Hadoop程序的方法.读者通过本文中新旧Hadoop MapReduce框架的对比,更深刻理解新的yarn框架技术与那里和设计思想,文中的Demo代码经过微小修改既可用于用户基于Hadoop新框架的实际生产环境. Hadoop MapReduceV2(Yarn)框架简介

Hadoop 新 MapReduce 框架 Yarn 详解

原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce 架构从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobCli

Android开源框架Universal-Image-Loader详解

如果说评价一下哪个图片开源库最被广泛使用的话,我想应该可以说是Universal-Image-Loader,在主流的应用中如果你随便去反编译几个,基本都能看到他的身影,它就像个图片加载守护者,默默的守护着图片加载.相信很多人对这个异步加载图片框架还不是很熟,再加上最近它更改优化了好几个地方,而网上的大部分资料还是以前的,于是花了几天时间专门的研究了下开源框架Universal-Image-Loader(实际上是近期项目刚好用到,且仔细的考虑过各种情况),希望对新手能有所帮助,也希望大神能

scrapy (三）各部分意义及框架示意图详解

一、框架示意图

二、爬虫人员的主要工作

三、scrapy基本流程

四、scrapy 框架各部分详解

1、 Scrapy Items ：定义您想抓取的数据

name = scrapy.Field()

2、spiders：编写提取数据的Spider

3、编写 item pipeline 将item存储到数据库中

4、编写自己的item pipeline

1）process_item(item, spider)

2）open_spider(spider)

3）close_spider(spider)

5、查看提取到的数据