urllib2中自定义opener

正常用Python抓取网页信息,需要用到urllib2,调用urllib2.urlopen(url),可以获得response 反馈信息,再用response.read()即可获得页面的源码。

最简单的抓包代码:

import urllib2
response = urllib2.urlopen(‘http://www.baidu.com/‘)
html = response.read()
print html

下面来说一说urllib2中的两个重要概念:Openers和Handlers。

1.Openers:

当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。

正常情况下,我们使用默认opener:通过urlopen。

但你能够创建个性的openers。

2.Handles:

Openers使用处理器handlers,所有的“繁重”工作由handlers处理。

每个handlers知道如何通过特定协议打开URLs,或者如何处理URL打开时的各个方面。

在你使用代理上网或其他的情况就需要自己创建一个 opener,可以实例化一个OpenerDirector,

然后调用.add_handler(some_handler_instance)。

同样,可以使用build_opener,这是一个更加方便的函数,用来创建opener对象,他只需要一次函数调用。
build_opener默认添加几个处理器,但提供快捷的方法来添加或更新默认处理器。

其他的处理器handlers你或许会希望处理代理,验证,和其他常用但有点特殊的情况。

install_opener 用来创建(全局)默认opener。这个表示调用urlopen将使用你安装的opener。

Opener对象有一个open方法。

该方法可以像urlopen函数那样直接用来获取urls:通常不必调用install_opener,除了为了方便。

import urllib2  

proxy_handler = urllib2.ProxyHandler({‘http‘:‘http://10.19.110.32:8080/‘})

opener = urllib2.build_opener(proxy_handler)

urllib2.install_opener(opener) 

response = urllib2.urlopen(‘http://www.baidu.com/‘)
html = response.read()
print html
import urllib2  

proxy_handler = urllib2.ProxyHandler({‘http‘:‘http://10.19.110.32:8080/‘})

opener = urllib2.build_opener(proxy_handler)

response = opener.open(‘http://www.baidu.com/‘)
html = response.read()
print html

  

时间: 2024-10-10 16:03:53

urllib2中自定义opener的相关文章

urllib2 Handler处理器和自定义opener(六)

Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的). 但是基本的urlopen()方法不支持代理.cookie等其他的HTTP/HTTPS高级功能.所以要支持这些功能: 使用相关的 Handler处理器 来创建特定功能的处理器对象: 然后通过 urllib2.build_opener()方法使用这些处理器对象,创建自定义opener对象:

爬虫之Handler处理器 和 自定义Opener

Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的). 但是基本的urlopen()方法不支持代理.cookie等其他的HTTP/HTTPS高级功能.所以要支持这些功能: 使用相关的 Handler处理器 来创建特定功能的处理器对象: 然后通过 urllib2.build_opener()方法使用这些处理器对象,创建自定义opener对象:

python爬虫(六)_urllib2:handle处理器和自定义opener

本文将介绍handler处理器和自定义opener,更多内容请参考:python学习指南 opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页,它是一个特殊的opener(也就是模块帮我们建好的),opener是urllib2.OpenerDirectory的实例. 但是基本的urlopen()方法不支持代理.cookie等其他的HTTP/HTTPS高级功能.所以要支持这些功能: 使用相关的Handler处理器来创建特定功能的处理器对象:

python爬虫(四)_urllib2:handle处理器和自定义opener

opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页,它是一个特殊的opener(也就是模块帮我们建好的),opener是urllib2.OpenerDirectory的实例. 但是基本的urlopen()方法不支持代理.cookie等其他的HTTP/HTTPS高级功能.所以要支持这些功能: 使用相关的Handler处理器来创建特定功能的处理器对象: 然后通过urllib2.build_opener()方法来使用这些处理器对象,创建自定义

7-python自定义opener

Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的). 但是基本的urlopen()方法不支持代理.cookie等其他的HTTP/HTTPS高级功能.所以要支持这些功能: 使用相关的 Handler处理器 来创建特定功能的处理器对象: 然后通过 urllib2.build_opener()方法使用这些处理器对象,创建自定义opener对象:

vue中自定义指令

在vue中自定义标签,首先要调用vue中一个directive的方法,具体方法:Vue.direction('指令名称',function(){ }); 例如我们要写一个关于颜色的指令,叫v-colorred: 1 Vue.directive('colorred',function(){ 2 3 this.el.style.color='red'; 4 }); 在html中,我直接用v-colorred指令就可以了,例如: 1 <p v-colorred>1234567890</p>

在Tableau中自定义版块地图 (Polygon)

在Tableau的地图报表中有一个‘Filed Map’的类型,可以根据版块来显示数据. 但实际应用中Tableau固有的版块划分可能不是我们想要的,下面介绍如何自定义版块并且用作数据分析. 自定义版块 在Tableau中自定义版块是非常容易的.如下图我们把每个点链接起来就是一个多边形的版块 上面的经纬度就不用说了.State 是我们版块的名字.其中Point Order告诉Tableau链接的顺序. Polygon ID 用来指定各个闭合的区域.如下图,State 都叫Michigan,由两块

linux中自定义回收站

myrm(){ D=/tmp/$(date +%Y%m%d%H%M%S); mkdir -p $D; mv "[email protected]" $D && echo "moved to $D ok"; } [[email protected] test]# myrm(){ D=/tmp/$(date +%Y%m%d%H%M%S); mkdir -p $D;  mv "[email protected]" $D &&am

PB中自定义事件ID含义

PB中自定义事件ID含义 单选或多选按钮消息(前缀:pbm_bm) pbm_bmgetcheck 单选按钮或多选按钮是否被选. pbm_bmgetstate 按钮是否加亮. pbm_bmsetcheck 将无线按钮或确认框的选中状态改为未选中状态,反之亦然. pbm_bmsetstate 加亮或不加亮按钮. pbm_bmchange 改变按钮的风格,例如,改为单选按钮或组合框. 单选或多选按钮通知消息(前缀:pbm_bn) pbm_bnclicked 按钮控件被点中. pbm_bndisable