让Scrapy的Spider更通用

1,引言

Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定制。我们有个设想:是否能做一个比较通用的Spider,把定制部分再进一步隔离出去?

GooSeeker有一个爬虫群模式,从技术实现层面来考察的话,其实就是把爬虫软件做成一个被动接受任务的执行单元,给他什么任务他就做什么任务,也就是说同一个执行单元可以爬多种不同的网站。而分配任务的是GooSeeker会员中心的爬虫罗盘,实现集中管理分布执行。

开源Python即时网络爬虫项目同样也要尽量实现通用化。主要抓取以下2个重点:

  • 网页内容提取器从外部注入到Spider中,让Spider变通用:参看《Python即时网络爬虫:API说明》,通过API从GooSeeker会员中心获得网页内容提取器,可以充分利用MS谋数台的直观标注快速生成提取器的能力。
  • 抓取目标网址不再存于Spider,而是从外部获得:GooSeeker有个基于大数据平台的网址库系统,还有爬虫罗盘可观察网址的抓取状态,也有用户界面添加删除网址,把Spider进一步做成一个执行机构。

下面我们将进一步讲解实现原理,以助于读者阅读源码。

2,爬虫群模式示意图
中间蓝色部分就是GooSeeker会员中心的地址库和爬虫罗盘。网址和提取规则本来应该硬编码到Spider中的,现在隔离出来,由会员中心进行管理,那么Spider就很容易做通用了。

3,通用Spider的主要功能

地址库和提取规则隔离出来以后,Scrapy的Spider可以专注于以下流程:

  • 通过API从GooSeeker会员中心获取内容提取器:这个API的url可以硬编码到Spider中,放在start_urls列表的位置, 这里本来是放目标网页地址的,现在换成一个固定的API地址,在这一点上,Spider变通用了
  • 在第一个parse()过程,不是解析目标网页内容,而是把API中获得内容提取器注入到gsExtractor中。
  • 在第一个parse()过程,为第二个API构造一个Request,目的是从GooSeeker会员中心获取要爬取的网址
  • 在第二个parse()过程,用目标网址构造一个Request,这才是真正的交给Loader去下载目标网页
  • 在第三个parse()过程,利用gsExtractor提取网页内容
  • 在第三个parse()过程,再次为第二个API构造一个Request,获得下一个目标网址
  • 跳到4,一直循环,直到GooSeeker会员中心的地址库都用完了。

4,接下来的工作

1,按照上述设想编写和调测Scrapy的通用Spider
2,研究是否可以更加通用,把GooSeeker的爬虫群调度都引入到Spider中,也就是在通过第一个API获得提取器之前再增加一个获得爬虫群调度任务的过程,这样,把所有Spider都变成被动接受任务的工作模式,每个Spider是不固定抓取规则的。

5,相关文档

1, Python即时网络爬虫项目: 内容提取器的定义
2, Scrapy:python3下的第一次运行测试

6,集搜客GooSeeker开源代码下载源

1, 开源Python即时网络爬虫GitHub源

7,文档修改历史

2016-07-06:V1.0,首次发布
2016-07-06:V1.1,编辑修改,补充过程描述文字

时间: 2024-10-09 11:31:56

让Scrapy的Spider更通用的相关文章

图像形态学及更通用的形态学的原理及细节

在试图找到连通分支(具有相似颜色或强度的像素点的大块互相分离的区域)时通常使用膨胀操作.因为在大多数情况下一个大的区域可能被噪声.阴影等类似的东西分割成多个部分,而一次轻微的膨胀又将使这些部分“融合”在一起 如果图像不是二值的,那么膨胀和腐蚀起到的作用不是很明显.在处理灰度和彩色图像时,更通用的cvMorphologyEx可提供更有用的操作. 平滑处理与膨胀腐蚀用的核不同,分别是卷积核与形态核,形态核不需要任何的数值填充核,第132页讲高斯滤波器的时候提到高斯卷积核 开运算先腐蚀后膨胀,可以用来

eclipse+PyDev 中报错"scrapy.spiders.Spider" ,可用"# @UndefinedVariable"压制.

# -*- coding:utf-8 -*- ''' Created on 2015年10月22日 (1.1) 例子来源: http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html ''' import scrapy # 去掉 s 在PyDev中不报错, 但是无法运行.如果加上 s 虽然报错,但是程序能正常运行. # 可以在 PyDev 中使用 " # @UndefinedVariable "来压制错误提示.

scrapy之 Spider Middleware(爬虫中间件)

Spider Middleware是介入到Scrapy与Spider处理机制的钩子框架.所处位置: 当 Downloder生成Response之后,Response 会被发送给 Spider,在发送给 Spider之前,Response 会首先经过 Spider Middleware处理,当Spider处理生成Item 和Request之后,Item和Request还会经过 Spider Middleware 的处理. Spider Midleware 有如下三个作用: 我们可以在 Downml

爬虫框架Scrapy之Spider

Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方. class scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类. 主要用到的函数及调用顺序为: __init__() : 初始化爬虫名字和start_urls列表 start_requests() 调用make_requests_from u

Scrapy框架-Spider和CrawlSpider的区别

目录 1.目标 2.方法1:通过Spider爬取 3. 通过CrawlSpider爬取 1.目标 http://wz.sun0769.com/index.php/question/questionType?type=4&page= 爬取每个页面链接的内部内容和投诉信息 2.方法1:通过Spider爬取 # -*- coding: utf-8 -*- import scrapy from dongguanSpider.items import DongguanItem class SunSpide

Scrapy之Spider

Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方. class scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类. 主要用到的函数及调用顺序为: __init__() : 初始化爬虫名字和start_urls列表 start_requests() 调用make_requests_from u

RecyclerView更通用——listView的onItemClick,onLongItemClick,addHeaderView,addFooterView

一.点击事件 setOnItemClickListener,setOnItemLongClickListener RecyclerView中虽然没有提供上面这两个接口,但是给我们提供了另外一个接口:OnItemTouchListener看这个接口的文档描述我们知道此接口可以对RecyclerView中的手势进行监听处理,因此我们可以采用OnItemTouchListener+GestureDetector来实现RecyclerView的OnItemClick和OnItemLongClick.实现

Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)

Spiders Spider类定义了怎样爬取某个(或某些)站点.包含了爬取的动作(比如:是否跟进链接)以及怎样从网页的内容中提取结构化数据(爬取item). 换句话说.Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方. 对spider来说.爬取的循环类似下文: 以初始的URL初始化Request,并设置回调函数. 当该request完成下载并返回时,将生成response,并作为參数传给该回调函数. spider中初始的request是通过调用 start_requests

scrapy spider官方文档

Spiders Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方. 对spider来说,爬取的循环类似下文: 以初始的URL初始化Request,并设置回调函数. 当该request下载完毕并返回时,将生成response,并作为参数传给该回调函数. spider中初始的request是通过调用 start_requests