scrapy crawlspider内置方法源码

rules:

  有经验的同学都知道它是一个列表,存储的元素时Rule类的实例,其中每一个实例都定义了一种采集站点的行为。如果有多个rule都匹配同一个链接,那么位置下标最小的一个rule将会被使用。

__init__:

  在源码中可以看到,它主要就是执行了_compile_rules方法,这边暂时不讲。

parse:

  默认回调方法,同上章一样。不过在这里进行了重写,这里直接调用方法_parse_response,并把parse_start_url方法作为处理response的方法。

parse_start_url:

  这个方法在源码中只看其定义是没有什么发现的,需要查看其使用环境。它的主要作用就是处理parse返回的response,比如提取出需要的数据等,该方法也需要返回item、request或者他们的可迭代对象。它就是一个回调方法,和rule.callback用法一样。

_requests_to_follow:

  阅读源码可以发现,它的作用就是从response中解析出目标url,并将其包装成request请求。该请求的回调方法是_response_downloaded,这里为request的meta值添加了rule参数,该参数的值是这个url对应rule在rules中的下标。

_response_downloaded:

  该方法是方法_requests_to_follow的回调方法,作用就是调用_parse_response方法,处理下载器返回的response,设置response的处理方法为rule.callback方法。

_parse_response:

  该方法将resposne交给参数callback代表的方法去处理,然后处理callback方法的requests_or_item。再根据rule.follow and spider._follow_links来判断是否继续采集,如果继续那么就将response交给_requests_to_follow方法,根据规则提取相关的链接。spider._follow_links的值是从settings的CRAWLSPIDER_FOLLOW_LINKS值获取到的。

_compile_rules:

  这个方法的作用就是将rule中的字符串表示的方法改成实际的方法,方便以后使用。

from_crawler:

  这个就不细说了,看看源码就好,两行代码。

整个数据的流向如下图所示:

关于CrawlSpider就先讲到这里,接下来会说说Rule类,该类的源码已经在文章的最上方贴出来了。

link_extractor:

  该方法是一个Link Extractor实例,主要定义的就是链接的解析规则。

callback:

  该值可以是一个方法,也可以是一个字符串(spider实例中一个方法的名称)。它就是一个回调方法,在上面的流程图中可以看到它所在的位置以及作用。这里要慎用parse做为回调方法,因为这边的parse已经不像spider类中的那样没有具体操作。

cb_kwargs:

  这是一个字典,用于给callback方法传递参数,在CrawlSpider源码中可以看到其作用。

follow:

  是一个布尔对象,表示是当前response否继续采集。如果callback是None,那么它就默认为True,否则为False。

process_links:

  该方法在crawlspider中的_requests_to_follow方法中被调用,它接收一个元素为Link的列表作为参数,返回值也是一个元素为Link的列表。可以用该方法对采集的Link对象进行修改,比如修改Link.url。这里的如果你的目标url是相对的链接,那么scrapy会将其扩展成绝对的。源码就不带大家看了,了解就行。

process_request

  顾名思义,该方法就是处理request的,源码中也给出了一个样例(虽然没有任何作用),想修改request的小伙伴可以自己构造该方法。

Rule是不是很简单呢,可是他的属性link_extractor的花样就比较多了。默认的link解析器是LinkExtractor,也就是LxmlLinkExtractor。在之前的scrapy版本中还有其他的解析器,不过现在已经弃用了。对于该类的介绍官网文档已经有很详细的解释了,我就不再赘述了。

这章介绍的是scrapy中比较重要的一个类,希望本文会对小伙伴们有帮助,如果有疑问,欢迎在下面的评论区中提问。

原文地址:https://www.cnblogs.com/cjj-zyj/p/10153795.html

时间: 2024-11-07 21:48:02

scrapy crawlspider内置方法源码的相关文章

rest_framework-02-权限-内置权限源码流程

权限 问题:不同视图不同权限可以访问 1.models.py from django.db import models class UserInfo(models.Model): user_type_choices = ( (1,'普通用户'), (2,'VIP'), (3,'SVIP'), ) user_type = models.IntegerField(choices=user_type_choices) # username = models.CharField(max_length=3

unity, 查看内置shader源码

1,建一个球体. 2,建一个材质,将材质拖到球体上. 3,在材质的shader下拉列表中选择想查看的内置shader,点材质栏右上设置按钮->Select Shader 进入shader面板. 4,点Compile and show code查看shader代码.(在此之前可点按钮右边箭头在弹出的下拉菜单中设置编译的目标平台). 不理想的是编译出来的代码可能是平台相关的,而且可读性也不大好. 不知道如何查看编译前的原始CG代码.

unity 内置 shader 源码

接下来的几天会写几个shader,这里先给出参考资料, 吃饱后补充shader的详解 unity built-in shader 源码(不同uinty版本): 下载地址:http://unity3d.com/unity/download/archive

Unity中内置Shader源码的获取方式

现在可以直接在Unity下载页面获得 http://unity3d.com/get-unity/download/archive 包括StandardShader,StandardShaderGUI.cs等

Python 教程——String的内置方法

Python为String类型提供了很多很有用的内置方法,这篇文章主要针对Python2.7的内置方法做一个测试列举,展示一下用途. 如果大家想看原版的,可以去这个网址看(https://docs.python.org/2/library/stdtypes.html#string-methods),但是这里是我自己的实践以及一些理解. 1. str.capitalize() 返回第一个字母大写的str str = "a string" str.capitalize()'A string

01类内置方法

# 写一个单例类# __名子__ # 类中的特殊方法.内置方法 # 双下方法 # 魔法方法 # __call__ flask# __new__ 特别重要 写一个单例类# __len__# __str__ /__repr__ __call__ # __call__ flask class A: def __call__(self, *args, **kwargs): print("执行__call__方法") # # a = A() # a() # 对象加()执行call方法 # A()

匿名函数和内置方法

匿名函数用lambda定义只能用三元运算 python内置方法abs()取绝对值all(可迭代对象)可迭代对象都为真,返回Trueany(可迭代对象)可迭代对象有一个为真,返回Truebin()二进制转换bool()判断真假bytearray()可修改的二进制字节格式callable()是否可以调用ord(输入字符),chr(输入数字) 返回ascii码对应表dir()查看有什么方法divmod(x,y)相除返回余数enumerate(),获取下标eval()把字符串解释出来exec()语句运算

Python的内置方法,abs,all,any,basestring,bin,bool,bytearray,callable,chr,cmp,complex,divmod

Python的内置方法 abs(X):返回一个数的绝对值,X可以是一个整数,长整型,或者浮点数,如果X是一个复数,此方法返回此复数的绝对值(此复数与它的共轭复数的乘积的平方根) >>> abs(3+2j) 3.605551275463989 >>> abs(3-2j) 3.605551275463989 all(iterable):如果迭代器的所有元素都是true,或者空迭代器,则此方法返回true. any(iterable):迭代器只要有一个元素为false,或者空

2017/9/11——何某某更博,花时间整理了所有的Python内置方法的用法,便于日后复习

1.这里是所有的内置方法的使用方法 # -*- coding:utf-8 -*- # Author : 何子辰 # 所有的内置方法总结 print('1.abs'.center(50,'*')) # abs 绝对值 a = abs(-5) print(a) print('2.all'.center(50,'*')) # all # Return True if all elements of the # iterable are true(or if the iterable # is empt