scrapy中的canonicalize_url【转】

转自：http://www.leyle.com/archives/canonicalize_url.html

思考一下：对url进行规范化处理是否是必须的？因为这一步处理涉及到编码转换，对于一个网页的新链发现来说是比较耗时的。

为什么需要格式化 url？

比如下面几个url：

实质上请求的内容是一样的，但是参数的顺序却是可以不一样的，所以，我们需要一个规则，让所有的 url 都按照这个规则来格式化，这样更方便我们判断 url 指向的内容是否相同，也可以对 url 进行去重处理。

在 scrapy 中，格式化 url 的函数是 scrapy.utils.url.canonicalize_url()，在 scrapy 中，按照 url 的构成方法，对 url 中的构成数据进行了重新排列，关于 url 的信息，可以参考 Uniform resource locator

所以整个函数的实现过程就是：

分割 url，提取出来 url 中各个部分；这里使用的是 urlparse.urlparse(url) 来实现；
对于 query 的内容，对他们进行分割(urlparse.parse_qsl(query, True))，同时保留空参数，然后进行排序后再重新拼接成查询字符串；urllib.urlencode(query_list);
路径处理，根据百分号编码相关规则进行编码与转义；
处理是否保留页面内的导航定位(‘#‘)，默认情况下是不保留；

经过上面的处理后，再通过 urlparse.urlunparse 反向拼接成新的 url。到此处是，整个 url 格式化过程就完成了。

时间： 2024-12-30 02:47:50

scrapy中的canonicalize_url【转】的相关文章

Scrapy中对xpath使用re

Scrapy中使用xpath时,根据xpath的语法不一定能得到想要的. 如下面的html源码: 1 <div class="db_contout"> <div class="db_cont"> <div class="details_nav"> <a href="http://movie.mtime.com/79055/addimage.html" class="db_ad

抓取scrapy中文文档第一个Scrapy项目实现

使用Scrapy这个python的网络爬虫框架抓取Scrapy中文文档开发第一步:新建项目scrapy startproject myfirst 目录结构: myfirst │ scrapy.cfg Scrapy项目配置文件 │ └─myfirst Scrapy项目代码存放目录 │ items.py 存储从抓取的网页中需要保存的数据,再其中指定要存储的域 │ pipelines.py 管道文件,用于存储从抓取的网页中解析出的其他页面的url,相当于任务队列 │ settings.py 爬虫配置

[转]scrapy中的logging

logging模块是Python提供的自己的程序日志记录模块. 在大型软件使用过程中,出现的错误有时候很难进行重现,因此需要通过分析日志来确认错误位置,这也是写程序时要使用日志的最重要的原因. scrapy使用python内置的logging模块记录日志日志的级别 1. logging.CRITICAL - for critical errors (highest severity) 2. logging.ERROR - for regular errors 3. logging.WARNIN

scrapy中对于item的把控

其实很简单,就是想要存储的位置发生改变.直接看例子,然后触类旁通. 以大众点评评论的内容为例 ,位置:http://www.dianping.com/shop/77489519/review_more?pageno=1 数据存储形式由A 变成B A: 展开的话这样子: B: 本质上看,就是多个相同类型的item可以合并,不需要那么多,分别来看下各自的代码: A: class GengduopinglunSpider(scrapy.Spider): name = 'gengduopinglun'

论Scrapy中的数据持久化

引入 Scrapy的数据持久化,主要包括存储到数据库.文件以及内置数据存储. 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中. 终端指令存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. # 执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json # 存为json文件 scrapy crawl 爬虫名称 -

scrapy中selenium的应用

引子: 在通过scrapy框架进行某些网站数据爬取的时候,旺旺会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据,但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据.那么如果我们想要在scrapy也获取动态加载出的数据,则必须使用selenium穿件浏览器对象,然后通过该浏览器对象进行请求发送,获取动态加载的数据值. 1.案例分析: - 需求:爬取网易新闻的国内板块下的新闻数据 - 需求分析: 当点

scrapy中的selenium

引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据.那么如果我们想要在scrapy也获取动态加载出的数据,则必须使用selenium创建浏览器对象,然后通过该浏览器对象进行请求发送,获取动态加载的数据值. 1.案例分析: - 需求:爬取网易新闻的国内板块下的新闻数据 - 需求分析:当点击

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建scrapy爬虫框架的第一个项目(下) 关于Scrapy爬虫项目运行和调试的小技巧(上篇) 关于Scrapy爬虫项目运行和调试的小技巧(下篇) 今天我们将介绍在Scrapy中如何利用Xpath选择器从HTML中提取目标信息.在Scrapy中,其提供了两种数据提取的方式,一种是Xpath选择器,一种是C

10 UA池和代理池在Scrapy中的应用

下载中间件简介在Scrapy中,引擎和下载器之间有一个组件,叫下载中间件(Downloader Middlewares).因它是介于Scrapy的request/response处理的钩子,所以有2方面作用: (1)引擎将请求传递给下载器过程中,下载中间件可以对Requests进行一系列处理.比如设置请求的 User-Agent,设置代理ip等 (2)在下载器完成将Response传递给引擎中,下载中间件可以对Responses进行一系列处理.比如进行gzip解压等. 爬虫中,主要使用下载中间

猜你喜欢

JS实现全选，不选，反选的示例

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

decode 类似 case when

将查询的结果翻译成其他值,类似 case when to_char(创建时间,'mm') ='01' then '查询统计的是1月 ' when to_char(创建时间,'mm') ='02' t ...

OC系列高级－内存管理

一.MRC 和 ARC 1.mrc模式下声明一个Dog对象析构函数二.mrc手动内存管理模式下get和set方法

IOS Core Animation Advanced Techniques的学习笔记(四)

第五章:Transforms Affine Transforms CGAffineTransform是二维的 Creating a CGAffineTransform 主要有三种变化方法旋转: CG ...

使用URLEncoder、URLDecoder进行URL参数的转码与解码

url后参数的转码与解码 import java.net.URLDecoder; import java.net.URLEncoder; String strTest = "?=abc?中% ...

pthread_cond_wait 信号量丢失

服务器在使用pthread_cond_wait的时候遇到一个问题.具体描述如下一个主进程,给n个从线程发送计算请求,主进程会等待n个线程返回,在执行下一步从线程计算完毕后,最后一个线程会通知主线程 ...

安卓第十夜亚当的诞生

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 上一讲介绍了用WebView来抓取一个网页内容.这一讲我将介绍如何在安卓内部直接进 ...

《网络协议》IP 分片与 TCP 分段

最大传输单元(Maximum Transmission Unit,MTU)是指一种通信协议的某一层上面所能通过的最大数据包大小(以字节为单位).数据链路层中的网络对数据帧的长度都有一个限制,不同网络的 ...

Linux C编程(1) vim及gcc命令

1. 输入以下命令可以启动vi: (1) vi:不指定文件名,在保存文件时需要指定文件名. (2) vi 文件名:该文件既可以是已存在的,也可以是新建的. (3) vi +n 文件名:进入vi,光标停 ...

javascript学习笔记08

length,call和apply <script type="text/javascript"> function fn1() { } ...

Java数据库访问技术

Java集合: Collection Map List: 位于 java.util包中. Arraylist 顺序结构.Linkedlist 链表结构 ? 当我们想在static main(strin ...

《编写高质量代码：改善c++程序的150个建议》

这本书没什么新东西,大部分是effective c++或者其它书的摘抄,下面记录下我可能在编程时会忽略的几点. 1. 结构体内变量布局:按类型大小从小到大声明. 2. 在c++代码中引入大量c代码,注 ...

学好C语言三字真经—— 编我编我编编编

文/向右奔跑(简书作者)原文链接:http://www.jianshu.com/p/a3fe0bbb01c7著作权归作者所有,转载请联系作者获得授权,并标注"简书作者". C语言很 ...

/dev/null 和 /dev/zero

1.概论 -- 来自维基的解释 /dev/null : 在类Unix系统中,/dev/null,或称空设备,是一个特殊的设备文件,它丢弃一切写入其中的数据(但报告写入操作成功),读取它则会立即得到一 ...

phpword生成中文乱码的问题

使用phpword通过word模板生成word文件的时候,会出现乱码问题.我的php和数据库全部是使用的urf8编码格式,解决方法就是,找到/phpword/template.php文件,将代码 ...

随想录（webbench压力测试代码）

[ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 关于压力测试,网上有很多的代码.但是,我个人还是觉得这份webbench代码写得比较好,大概也 ...

Asp.Net服务器控件开发的Grid实现(三)

下面是GridColumnsEditor的实现代码: GridColumnsEditor.cs using System; using System.Collections.Generic; usin ...

对象和类型（数组、ref、out）

1 class Program 2 { 3 //数组是引用类型 4 //如果把数组或类等其他引用类型传递给方法,对应的方法就会使用该引用类型改编数组中值, 5 //而新值会反射到原始数组上 6 sta ...

前端开发常用插件总结

一.PC端 1.JQuery ( 1.7.0 ~ 3.1.o 版本 ) 官网:https://jquery.com/ JQuery是轻量级的js库 ,它兼容CSS3,还兼容各种浏览器(IE 6.0+, ...

excel2003出现“向程序发送命令时出现错误”解决方法

电脑已经预装了office2010,因为想要学习 <Excel 图标之道>,安装了Excel2003,刚刚安装好,打开出现“向程序发送命令时出现错误”,虽然点击确定就可以用了,可总是觉得不 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.023 s.