crawl spider

crawlspider

使用
scrapy genspider -t crawl 文件名字网址

crawlspider是什么？
也是一个spider，是Spider的一个子类，所以其功能要比Spider要强大
多的一个功能是：提取链接的功能，根据一定的规则，提取指定的链接

链接提取器
LinkExtractor(
allow=xxx, # 正则表达式，要（*）
deny=xxx, # 正则表达式，不要这个
restrict_xpaths=xxx, # xpath路径（*）
restrict_css=xxx, # 选择器（*）
deny_domains=xxx, # 不允许的域名
)

通过正则提取链接
links = LinkExtractor(allow=r‘/movie/\?page=\d‘)
将所有包含这个正则表达式的href全部获取到返回
links.extract_links(response)进行查看提取到的链接
【注】将重复的url去除掉
通过xpath提取
links = LinkExtractor(restrict_xpaths=‘//ul[@class="pagination pagination-sm"]/li/a‘)
通过css提取
links = LinkExtractor(restrict_css=‘.pagination > li > a‘)

原文地址：https://www.cnblogs.com/airapple/p/9195467.html

时间： 2024-10-07 05:30:10

crawl spider的相关文章

用crawl spider爬取起点网小说信息

起点作为主流的小说网站,在防止数据采集反面还是做了准备的,其对主要的数字采用了自定义的编码映射取值,想直接通过页面来实现数据的获取,是无法实现的. 单独获取数字还是可以实现的,通过requests发送请求,用正则去匹配字符元素,并再次匹配其映射关系的url,获取到的数据通过font包工具解析成字典格式,再做编码匹配,起点返回的编码匹配英文数字,英文数字匹配阿拉伯数字,最后拼接,得到实际的数字字符串,但这样多次发送请求,爬取效率会大大降低.本次集中爬取舍弃了爬取数字,选择了较容易获取的评分数字.评

Scrapy系列教程（3）------Spider（爬虫核心，定义链接关系和网页信息抽取）

Spiders Spider类定义了怎样爬取某个(或某些)站点.包含了爬取的动作(比如:是否跟进链接)以及怎样从网页的内容中提取结构化数据(爬取item). 换句话说.Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方. 对spider来说.爬取的循环类似下文: 以初始的URL初始化Request,并设置回调函数. 当该request完成下载并返回时,将生成response,并作为參数传给该回调函数. spider中初始的request是通过调用 start_requests

scrapy spider官方文档

Spiders Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方. 对spider来说,爬取的循环类似下文: 以初始的URL初始化Request,并设置回调函数. 当该request下载完毕并返回时,将生成response,并作为参数传给该回调函数. spider中初始的request是通过调用 start_requests

scrapy采集列表页的另一种方式

又是采集绿色下载站的最新软件,又是采用另一种方式(前两种是采用正则和xpath),呵呵感觉有点像孔乙已的茴字有几种写法了这回用CrawlSpider,Rule来配合采集这次不用生成许多start_urls列表项了,可以按规则来自动读取,贴核心代码 # -*- coding: utf-8 -*- from scrapy.contrib.spiders import CrawlSpider,Rule from scrapy.selector import Selector from scrap

爬虫框架Scrapy之CrawlSpiders

CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com 上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样... class scrapy.spiders.CrawlSpider 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来

Python.Scrapy.14-scrapy-source-code-analysis-part-4

Scrapy 源代码分析系列-4 scrapy.commands 子包子包scrapy.commands定义了在命令scrapy中使用的子命令(subcommand): bench, check, crawl, deploy, edit, fetch, genspider, list, parse, runspider, settings, shell, startproject, version, view. 所有的子命令模块都定义了一个继承自类ScrapyCommand的子类Comman

使用Discuz!自带参数防御CC攻击以及原理，修改Discuz X 开启防CC攻击后，不影响搜索引擎收录的方法

这部份的工作,以前花的时间太少. 希望能产生一定的作用. http://www.nigesb.com/discuz-cc-attacker-defence.html http://bbs.zb7.com/thread-8644-1-1.html CC攻击确实是很蛋疼的一种攻击方式,Discuz!的配置文件中已经有了一个自带的减缓CC攻击的参数,在配置文件config.inc.php中: 1 $attackevasive = 0; // 论坛防御级别,可防止大量的非正常请求

Discuz封锁蜘蛛最有效的方法

闲来无事翻代码,发现一个好东西,Discuz设计者考虑到了有些流氓搜索引擎不遵守roborts.txt,于是设计了一个NOROBOT变量,当这个变量为true 的时候,定义中的搜索引擎都会无法访问,默认比如在post.php里面开头就定义了 define('NOROBOT', TRUE); 这样就可以有效防止蜘蛛乱爬了但是至于像viewthread.php,forumdisplay.php(还有其他.比如,feed页面等)默认就是要给虫子爬的,所以,这一句话没有,如果要封锁蜘蛛,在这些页面中加

Scrapy的shell命令（转）

scrapy python MrZONT 2015年08月29日发布推荐 1 推荐收藏

猜你喜欢

Socket网络编程相关

1.http://blog.csdn.net/byrsongqq/article/details/5888214 2.http://blog.csdn.net/byxdaz/article/detai ...

提升你运营效率的方法详解

面对大大小小的事物,怎样才能快速做出运营决策呢?本文分享了3种方法,希望可以给大家产品运营带来帮助. 说起来也奇怪,我的公众号经常断更. 原因不是没什么内容可写,而是我想写的话题太多,总想挑最好的那个 ...

Java并发编程：并发容器之CopyOnWriteArrayList

原文链接: http://ifeve.com/java-copy-on-write/ Copy-On-Write简称COW,是一种用于程序设计中的优化策略.其基本思路是,从一开始大家都在共享同一个内容 ...

cp2102通过GPIO连接树莓派

一:树莓派GIPO口,需要GPIO14(TXD),GPIO15(RXD),Ground. 二:连接方式. cp2102的rxd连接到树莓派的txd,cp2102的txd连接到树莓派的rxd,以及cp2 ...

使用zxing生成二维码

public static Bitmap Create2DCode(String str) throws WriterException { // 生成二维矩阵,编码时 ...

[LeetCode]-007-String to Integer (atoi)

网址:https://leetcode.com/problems/string-to-integer-atoi/ 题意: 字符串转int数分析: 经典题,主要需要注意输入中,允许先有空格,再来内容. ...

nodejs api 中文文档

文档首页英文版文档本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可. Node.js v0.10.18 手册 & 文档索引 | 在单一页面中浏览 | JSON格 ...

php--每天积累02

开发中经常会遇到验证某个参数是否是null或者是否为空. 一.isset().is_null() .empty() : isset():检测变量是否设置,并且不是 NULL.如果变量没有赋值或者变 ...

udp/tcp协议及三次四次握手

用户数据报协议(UDP) UDP是一个简单的传输层协议(RFC 768). 进程往一个UDP套接字写入一个消息,该消息随后被封装(encapsulating)到一个UDP数据报,该UDP数据报进而又被 ...

第十五章加密算法实例1--注册登录（消息摘要算法）

15.1.原理步骤注册:注册时,将用户密码加密放入数据库登录:登录时,将用户密码采用上述相同的算法加密,之后再与数据库中的信息进行比对,若相同,则登录 15.2.实现(这里采用了SHA256算法, ...

算法~将文件夹下所有文件输出到日志文件中（包括所有子文件夹下的）

概念: 算法文章,总是带给我们无穷的思考和兴趣,一个问题,多种解决方法,看你如何去思考它,对于标题所引出的问题,我觉得,使用递归是比较有效的方法,当然递归还有很多使用场合,如树型分类列表的操作等等. ...

图形管线之旅 Part2

原文:<A trip through the Graphics Pipeline 2011> 翻译:往昔之剑转载请注明出处还没那么快在上一篇,讲述了渲染命令在被GPU处理前,经历的各 ...

数据结构与算法概念解析

数据之间的相互关系称为逻辑结构.通常分为四类基本结构: 集合结构中的数据元素除了同属于一种类型外,别无其它关系. 线性结构结构中的数据元素之间存在一对一的关系. 树型结构结 ...

找不到类型{0} 它在 ServiceHost 指令中提供为 Service 特性值

由于我把binding改成wsHttpBinding,在web.config里也改了命名空间 services的类名也改成了跟 web.config对应的命名空间后在添加引用后,出现了错误: “找不 ...

关于IT个人看法

对于理科生来说,理论和技术都是相当重要的,我很爱钻牛角尖,但是请理解'固执的我', 本人选择IT行业,其实也是偶然,带着质疑的眼光,成为了众多IT男中毫无'特色'的一员,回忆学习阶段,逐渐认识了IT ...

wamp因配置错误而导致apache无法启动的问题

在使用wamp搭建一个PHP项目环境时,却出现了apache无法启动的问题通过查看window的错误日志才发现apache出现了错误错误的原因说的很清楚,是因为配置文件中的Directory标签没 ...

Android 4.4 沉浸式透明状态栏与导航栏

安卓4.4才有的沉浸式状态栏在代码设置: if(VERSION.SDK_INT >= VERSION_CODES.KITKAT) { //透明状态栏 getWindow().addFlags( ...

站在巨人的肩膀上---重新自定义 android- ExpandableListView 收缩类，实现列表的可收缩扩展

距离上次更新博客,时隔略长,诸事繁琐,赶在去广州答辩之前,分享下安卓 android 中的一个列表收缩类---ExpandableListView 先上效果图: 如果想直接看实现此页面的代码请下滑 ...

how to dump query results into nt format in virtuoso

This is on ubuntu 14.04 LTS 1. you need to install virtuoso (you can refer to my previous post) 2. o ...

4 Values whose Sum is 0 :POJ - 2785

The SUM problem can be formulated as follows: given four lists A, B, C, D of integer values, compute ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.