Python 中的 urllib2 模块

通过python 的 urllib2 模块,可以轻易的去模拟用户访问网页的行为。

这里将自己的学习过程简单的记录下来。

一、urlopen函数

urlopen(url, data=None) -- Basic usage is the same as original
    urllib.  pass the url and optionally data to post to an HTTP URL, and
    get a file-like object back.  One difference is that you can also pass
    a Request instance instead of URL.  Raises a URLError (subclass of
    IOError); for HTTP errors, raises an HTTPError, which can also be
    treated as a valid response.

它的基本用法同urllib 库中的用法是一样的。urllib 中的urlopen 的注释如下:

urlopen(url, data=None, proxies=None)
        Create a file-like object for the specified URL to read from.

但不同于urllib 的是,urllib2 中的urlopen函数的第一个参数url 可以是一个Request 实例。

1、基本用法

Example:

#等同urllib 中的urlopen 函数的用法
In [12]: response = urllib2.urlopen(‘http://www.baidu.com‘)
In [13]: response.read()

# urllib2 中的使用request 实例的用法
In [14]: request = urllib2.Request(‘http://www.baidu.com‘)
In [15]: response = urllib2.urlopen(request)
In [16]: response.read()

我在这里还是非常喜欢第二种使用方式。毕竟一个http 的请求首先要有request,然后才能存在response。这样在编程的思路上就比较明了了。代码阅读起来也很清晰。

2、模拟POST请求

以上所模拟的请求,全部都是GET方式的请求,那如果需要模拟POST方式的请求呢?

查看Request的帮助help(urllib2.Request) 中发现,它的__init__ 构造函数是这样声明的

__init__(self, url, data=None, headers={}, origin_req_host=None, unverifiable=False)

从声明上来看POST 的数据可以放到data 中,且我们还可以通过headers 设置http的请求头参数

Example:

import urllib
import urllib2
 
values = {}
values[‘username‘] = "God"
values[‘password‘] = "XXXX"
data = urllib.urlencode(values)  # 使用了urllib库中的urlencode方法
url = "http://xxxx.xxxxx/login"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

大家可以针对具体的场景去更换自己的url、username 和 password

3、设置HTTP请求头

再通过headers参数去尝试一下修改http 请求头的一些信息。在上一个例子中进行稍微的修改

import urllib
import urllib2
 
values = {}
values[‘username‘] = "God"
values[‘password‘] = "XXXX"
data = urllib.urlencode(values) 
url = "http://xxxx.xxxxx/login"
headers = {‘User-Agent‘:‘ozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:37.0) Gecko/20100101 Firefox/37.0‘,‘Content-Type‘:‘text/html; charset=utf-8‘,‘Referer‘:‘http://www.baidu.com/‘}
request = urllib2.Request(url,data,headers)
response = urllib2.urlopen(request)
print response.read()

可以通过浏览器提供的F12功能去找到更多的头信息。

4、设置请求超时

好多时候各种原因,有可能导致你的请求各种等待。考验耐心的时候到了,不过这时可用通过设置urlopen 中的超时去干掉那些我们无法容忍的长时间没法响应的请求。

urlopen(url, data=None, timeout=<object object>)

使用timeout 的时候要注意的一点是,如果你没有data数据,那么这时你一定要显示的传递参数。

Example:

import urllib2
urllib2.urlopen(‘http://www.baidu.com‘,data,10)
urllib2.urlopen(‘http://www.baidu.com‘,timeout=10)

二、opener(OpenerDirector)

The OpenerDirector manages a collection of Handler objects that do
    all the actual work.  Each Handler implements a particular protocol or
    option.  The OpenerDirector is a composite object that invokes the
    Handlers needed to open the requested URL.  For example, the
    HTTPHandler performs HTTP GET and POST requests and deals with
    non-error returns.  The HTTPRedirectHandler automatically deals with
    HTTP 301, 302, 303 and 307 redirect errors, and the HTTPDigestAuthHandler
    deals with digest authentication

干嘛用的? 管理了一系列的handler 对象。我这这么理解的,其实我们在使用urlopen 的时候就已经存在了一个默认的handler 。只是对我们时透明的。我们可以使用这个handler做GET/POST 请求,但是如果我们想做一些其他的事情呢? 如我们想设置代理去做一些事情等所有非GET/POST能处理好的。那么我们就需要更换handler了 。这时就要使用opener ,这就时opener 所能干的。

1、设置代理

import urllib2
proxy_handler = urllib2.ProxyHandler({"http" : ‘http://11.11.11.11:8080‘})
opener = urllib2.build_opener(proxy_handler)
urllib2.install_opener(opener)
response = urllib2.urlopen(‘http://xxx.xxx.xxxx‘)
response.read()

2、打开http 和 https 的 Debug log 功能

import urllib2
httpHandler = urllib2.HTTPHandler(debuglevel=1)
httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler, httpsHandler)
urllib2.install_opener(opener)
response = urllib2.urlopen(‘http://www.baidu.com‘)

3、结合cookielib 处理 cookie 信息

首先要简单的了解一下cookielib 这个模块,功能还是很强大的。最好仔细研究一下

这里我们只研究 opener 相关,暂时略过cookielib 模块

import urllib2
import cookielib

cookie = cookielib.CookieJar()
cookieHandler=urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(cookieHandler)
urllib2.install_opener(opener)
response = urllib2.urlopen(‘http://www.baidu.com‘)
for item in cookie:
    print ‘CookieName = ‘+item.name
    print ‘CookieValue = ‘+item.value

三、异常处理URLError 和 HTTPError

HTTPError 是 URLError 的一个子类

URLError
            HTTPError(URLError, urllib.addinfourl)

import urllib2
 
req = urllib2.Request(‘http://www.baidu.com/mmmaa‘)
try:
    urllib2.urlopen(req)
except urllib2.HTTPError, e:
    if hasattr(e,"code"):
        print e.code
except urllib2.URLError, e:
    if hasattr(e,"reason"):
        print e.reason
else:
    print "OK"
时间: 2024-08-11 07:11:42

Python 中的 urllib2 模块的相关文章

python中urllib, urllib2,urllib3, httplib,httplib2, request的区别

permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别 若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, urllib2, urllib3, httplib, httplib2, requests python3.X 有这些库名可用: urllib, urllib3, httplib2, requests 两者都有的urllib3

Python中的random模块,来自于Capricorn的实验室

Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0 random.uniform random.uniform的函数原型为:random.uniform(a, b),用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限.如果a > b,则生成的随机数n: a <= n <= b.如果 a <

python中查看可用模块

1.这种方式的问题是,只列出当前import进上下文的模块. 进入python命令行.输入以下代码: >>>import sys >>>sys.modules 2.在python命令行下输入: >>>help() help>modulespython中查看可用模块,布布扣,bubuko.com

python中动态导入模块

如果导入的模块不存在,Python解释器会报 ImportError 错误: >>> import something Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named something 有的时候,两个不同的模块提供了相同的功能,比如 StringIO 和 cStringIO 都提供了Strin

Python中的random模块

Python中的random模块 (转载自http://www.cnblogs.com/yd1227/archive/2011/03/18/1988015.html) Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0 random.uniform random.uniform的函数原型为:random.uniform(a, b),

解决linux系统下python中的matplotlib模块内的pyplot输出图片不能显示中文的问题

问题: 我在ubuntu14.04下用python中的matplotlib模块内的pyplot输出图片不能显示中文,怎么解决呢? 解决: 1.指定默认编码为UTF-8: 在python代码开头加入如下代码 import sys reload(sys) sys.setdefaultencoding('utf-8') 2.确认你ubuntu系统环境下拥有的中文字体文件: 在终端运行命令"fc-list :lang=zh",得到自己系统的中文字体 命令输出如下: /usr/share/fon

(转)Python中的random模块

Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0 random.uniform random.uniform的函数原型为:random.uniform(a, b),用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限.如果a > b,则生成的随机数n: a <= n <= b.如果 a <

转载:python中的copy模块(浅复制和深复制)

主要是介绍python中的copy模块. copy模块包括创建复合对象(包括列表.元组.字典和用户定义对象的实例)的深浅复制的函数. ########copy(x)########创建新的复合对象并通过引用复制x的成员来创建x的浅复制.更加深层次说,它复制了对象,但对于对象中的元素,依然使用引用.对于内置类型,此函数并不经常使用.而是使用诸如list(x), dict(x), set(x)等调用方式来创建x的浅复制,要知道像这样直接使用类型名显然比使用copy()快很多.但是它们达到的效果是一样

Python中的logging模块【转】

基本用法 下面的代码展示了logging最基本的用法. 1 # -*- coding: utf-8 -*- 2 3 import logging 4 import sys 5 6 # 获取logger实例,如果参数为空则返回root logger 7 logger = logging.getLogger("AppName") 8 9 # 指定logger输出格式 10 formatter = logging.Formatter('%(asctime)s %(levelname)-8s: