python之web模块学习-- httplib

1  httplib简介

httplib 是python中http协议的客户端实现,可以使用该模块来与 HTTP 服务器进行交互

httplib是一个相对底层的http请求模块,其上有专门的包装模块,如urllib内建模块,goto等第三方模块,但是封装的越高就越不灵活,比如urllib模块里请求错误时就不会返回结果页的内容,只有头信息,对于某些需要检测错误请求返回值的场景就不适用,所以就得用这个模块了。

httplib实现了HTTP和HTTPS的客户端协议,一般不直接使用,在python更高层的封装模块中(urllib,urllib2)使用了它的HTTP和HTTPS实现。其中HTTPS需要socket编译了SSL支持。HTTP类仅仅是和python1.5.2及以前的版本兼容,不推荐使用。

2 httplib 详解

下面介绍一下 httplib常用的类

2.1 class httplib.HTTPConnection

HTTPConnection类 有两种常见方式:

1 HTTPConnection

    class httplib.HTTPConnection(host[,port[, strict[, timeout[, source_address]]]]) 
用法:
    该类用于创建一个http类型的请求链接
参数:
    host: 请求的服务器host,不能带http://开头
    port: 服务器web服务端口
    strict: 是否严格检查请求的状态行,就是http1.0/1.1 协议版本的那一行,即请求的第一行,默认为False,为True时检查错误会抛异常
    timeout: 单次请求的超时时间,没有时默认使用httplib模块内的全局的超时时间
返回:
    HTTPConnection类会实例并返回一个HTTPConnection对象
详解:
    HttpConnection的实例表示与HTTP服务器的事务。实例化时需要传递主机和可选的端口号。如果没有端口号,试图以host:port格式从主机字符串提取,如果提取失败则使用默认的HTTP端口(80)。参数strict默认为false,表示在无法解析状态行时(status line)不能被HTTP/1.0或1.1解析时不抛出BadStatusLine异常;可选参数timeout表示即阻塞在多少秒后超时,如果没有给出默认使用全局超时设置。可选参数source_address表示HTTP的源地址(host, port)。

2 HTTPSConnection

    class httplib.HTTPSConnection(host[, port[, key_file[,cert_file[, strict[, timeout[, source_address]]]]]])
用法:
    该类用于创建一个https类型的请求链接
参数:
    key_file:一个包含PEM格式的私钥文件
    cert_file:一个包含PEM格式的认证文件
    other:其它同http参数
返回:
    同样返回一个HTTPSConnection对象
注意:
    要创建https链接,必须要保证底层的socket模块是支持ssl的编译模式,即编译时ssl选项的开关是开着的
详解:
   HttpConnection的子类,使用SSL与安全服务器通信。默认端口为443。key_file是包含PEM格式私钥的文件名称。 cert_file中是PEM格式的证书链文件。

附代码:

HTTP:

>>> import httplib
>>> conn =httplib.HTTPConnection(‘www.baidu.com‘)
>>> conn = httplib.HTTPConnection(‘www.baidu.com:80‘)
>>> conn =httplib.HTTPConnection(‘www.baidu.com‘,‘80‘)
>>> conn =httplib.HTTPConnection(‘www.baidu.com‘,‘80‘,True)
>>> conn =httplib.HTTPConnection(‘www.baidu.com‘,‘80‘,True,10)

错误示例:

>>> conn =httplib.HTTPConnection(‘www.baidu.com:80‘,True,10)

HTTPS:

>>> conn = httplib.HTTPSConnection(‘www.baidu.com‘,443,key_file,cert_file,True,10)

以下为 关于 HTTPConnection 类的方法

2.1.1  HTTPConnection.request()

    HTTPConnection.request( method , url [ , body [ , headers ]] )
用法:
    调用request方法会向服务器发送一次请求
参数:
    method: 请求的方式,如‘GET‘,‘POST‘,‘HEAD‘,‘PUT‘,‘DELETE‘等
    url: 请求的网页路径。如:‘/index.html‘
    body: 请求是否带数据,该参数是一个字典
    headers: 请求是否带头信息,该参数是一个字典,不过键的名字是指定的http头关键字
返回:
    无返回,其实就是相对于向服务其发送数据,但是没有最后回车

附代码:

>>> import httplib
>>>conn=httplib.HTTPConnection(‘www.baidu.com‘,80,False,10)
>>> conn.request(‘get‘,‘/‘,‘‘,{‘user-agent‘:‘test‘})

2.1.2  HTTPConnection.getresponse()

说明:
    获取一个http响应对象,相当于执行最后的2个回车
返回:
    HTTPResponse对象(下面会用到)

附代码:

>>> import httplib
>>> conn=httplib.HTTPConnection(‘www.baidu.com‘,80,False,10)
>>> conn.request(‘get‘,‘/‘,‘‘,{‘user-agent‘:‘test‘})
>>>res = conn.getresponse()

2.1.3  HTTPConnection.connect()

对象创建之后连接到指定的服务器

2.1.4  HTTPConnection.close()

关闭与服务器的连接

附代码:

>>> import httplib
>>> conn=httplib.HTTPConnection(‘www.baidu.com‘,80,False,10)
>>> conn.request(‘get‘,‘/‘,‘‘,{‘user-agent‘:‘test‘})
>>> res = conn.getresponse()
>>>conn.close()

2.1.5  HTTPConnection.set_debuglevel( level )

设置高度的级别。参数level 的默认值为0 ,表示不输出任何调试信息

2.2  class httplib.HTTPResponse

HTTPResponse表示服务器对客户端请求的响应。往往通过调用HTTPConnection.getresponse()来创建,实例连接成功之后返回的类,不能由用户实例化。

它有如下方法和属性:

2.2.1  HTTPResponse.read([amt])

说明:
    获得http响应的内容部分,即网页源码
原型:
    body = res.read([amt])amt: 读取指定长度的字符,默认为空,即读取所有内容
返回:
    网页内容字符串

获取响应的消息体。如果请求的是一个普通的网页,那么该方法返回的是页面的html。可选参数amt表示从响应流中读取指定字节的数据。

附代码:

>>>conn=httplib.HTTPConnection(‘www.baidu.com‘,80,False,10)
>>> conn.request(‘GET‘,‘‘)
>>> res = conn.getresponse()
>>>res.read()
#下面的为网页信息
‘<!DOCTYPE html><!--STATUSOK-->\r\n<html>\r\n<head>\r\n\t<metahttp-equiv="content-type"content="text/html;charset=utf-8">\r\n\t<metahttp-equiv="X-UA-Compatible" content="IE=Edge">\r\n\t<linkrel="dns-prefetch"href="//s1.bdstatic.com"/>\r\n\t<linkrel="dns-prefetch" href="//t1.baidu.com"/>\r\n\t<linkrel="dns-prefetch" href="//t2.baidu.com"

2.2.2   HTTPResponse.getheader(name[, default])

获取执指定的响应头。Name表示头域(headerfield)名,可选参数default在头域名不存在的情况下作为默认值返回。

2.2.3   HTTPResponse.getheaders()

获得所有的响应头内容,是一个元组列表[(name,value),(name2,value2)]

附代码:

>>>res.getheaders()
[(‘content-length‘, ‘14613‘), (‘bdqid‘,‘0x9d3801010001675e‘), (‘set-cookie‘,‘BAIDUID=9ACDF7C2DF8C2EA720CBD97636829343:FG=1; expires=Thu, 31-Dec-37 23:55:55GMT; max-age=2147483647; path=/; domain=.baidu.com,BIDUPSID=9ACDF7C2DF8C2EA720CBD97636829343; expires=Thu, 31-Dec-37 23:55:55 GMT;max-age=2147483647; path=/; domain=.baidu.com, PSTM=1436858070; expires=Thu,31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com,BDSVRTM=0; path=/‘), (‘accept-ranges‘, ‘bytes‘), (‘vary‘, ‘Accept-Encoding‘),(‘bduserid‘, ‘0‘), (‘server‘, ‘BWS/1.1‘), (‘last-modified‘, ‘Wed, 03 Sep 201402:48:32 GMT‘), (‘connection‘, ‘Keep-Alive‘), (‘x-ua-compatible‘, ‘IE=Edge,chrome=1‘),(‘pragma‘, ‘no-cache‘), (‘cache-control‘, ‘no-cache‘), (‘date‘, ‘Tue, 14 Jul2015 07:14:30 GMT‘), (‘p3p‘, ‘CP=" OTI DSP COR IVA OUR IND COM "‘),(‘content-type‘, ‘text/html‘), (‘bdpagetype‘, ‘1‘)]

2.2.4  HTTPResponse.msg

获取所有的响应头信息。包含响应头的mimetools.Message实例

>>>res.msg
<httplib.HTTPMessage instance at0x1959e60>

2.2.5  HTTPResponse.msg

获取服务器所使用的http协议版本。11表示http/1.1;10表示http/1.0

>>> res.version
11

2.2.6  HTTPResponse.status

获取响应的状态码。如:200表示请求成功

>>> res.status
200

2.2.6  HTTPResponse.reason

返回服务器处理请求的结果说明。一般为”OK”

>>> res.reason
‘OK‘

2.3  class httplib.HTTPMessage

HTTPMessage实例用于保存HTTP响应头。它使用mimetools.Message类实现,并提供了处理HTTP头的工具函数。它不直接实例化的用户。不能由用户实例化。

2.4  异常

exception httplib.HTTPException

Exception的子类,此模块中的其他异常的基类。下面的类默认是该类的直接子类。

  • httplib.NotConnected
  • httplib.InvalidURL
  • httplib.UnknownProtocol
  • httplib.UnknownTransferEncoding
  • httplib.UnimplementedFileMode
  • httplib.IncompleteRead
  • httplib.ImproperConnectionState
  • httplib.CannotSendRequest

ImproperConnectionState的一个子类。

  • httplib.CannotSendHeader

ImproperConnectionState的一个子类。

  • httplib.ResponseNotReady

ImproperConnectionState的一个子类。

  • httplib.BadStatusLine

服务器返回的HTTP状态码不认识时产生。

2.5  常量和类变量

  • httplib.HTTP_PORT:HTTP协议的默认端口,恒为80。
  • httplib.HTTPS_PORT:HTTPS协议的默认端口,恒为443。
  • 状态常量:参见http://docs.python.org/2/library/httplib.html
  • httplib.responses:映射HTTP1.1状态代码映射到W3C的名字的字典。
时间: 2024-10-10 10:28:09

python之web模块学习-- httplib的相关文章

python之web模块学习-- urllib

准备写一些列的 python之web模块学习,基本上涉及常用的的web模块,包括 urllib.urllib2.httplib.urlparse.requests,现在,开始我们的第一个模块的学习吧. 1  urllib简介 python urllib 模块提供了一个从指定的URL地址获取网页数据,然后对其进行分析处理,获取我们想要的数据. 2  常用方法 2.1  urlopen  -- 创建一个类文件对象 为读取指定的URL help(urllib.urlopen) urlopen(url,

python之web模块学习-- urllib2

下面继续学习python的web模块 ---  urllib2,一个源于urllib又高于urllib的模块. 1  urllib2 简介 urllib2是python自带的一个访问网页及本地文件的库. 与urllib相比,显著区别之处在于: 1) urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL.这意味着,用urllib时不可以伪装User Agent字符串等. 2) urllib提供urlencode方法用来encode发送的da

python之web模块学习-- urlparse

继续学习python的web模块,urlparse 是一个比较简单的模块,主要是用来 解析URL字符串的 1  urlparse简介 python使用urlparse来解析URL字符串 主要方法: urlprase 次要方法: urljoin urlsplit  urlunsplit等 2  urlparse详解 urlparse模块主要是把url拆分为6部分,并返回元组.并且可以把拆分后的部分再组成一个url.主要有函数有urljoin.urlsplit.urlunsplit.urlparse

Python随机数random模块学习,并实现生成6位验证码

一.前言 学习python随机数random模块的使用 ,并使用模块中的函数,实现6位验证码生成 二.random模块 1.random.random() 返回0-1直接的随机数,类型为float >>>print(random.random()) 0.1259184691662908 2.random.randint(1, 8) 返回1-8直接的随机数,包括8 >>>print(random.randint(1, 8)) 3 3.random.choice() 从一个

[ python编程 ] subprocess模块学习总结

转载:http://www.jb51.net/article/48086.htm 从Python 2.4开始,Python引入subprocess模块来管理子进程,以取代一些旧模块的方法:如 os.system.os.spawn*.os.popen*.popen2.*.commands.*不但可以调用外部的命令作为子进程,而且可以连接到子进程的input/output/error管道,获取相关的返回信息. 一.subprocess以及常用的封装函数    运行python的时候,我们都是在创建并

Python的hashlib模块学习

python的hashlib模块提供一些常用的加密功能 例如获取字符串'Nobody inspects the spammish repetition'的MD5校验值 In [48]: import hashlib In [49]: m=hashlib.md5() In [50]: m.update('Nobody inspects') In [51]: m.update('the spammish repetition') In [52]: m.digest() Out[52]: '%\x8d

python简易web服务器学习笔记(二)

import BaseHTTPServer #------------------------------------------------------------------------------- class RequestHandler(BaseHTTPServer.BaseHTTPRequestHandler): '''Respond to HTTP requests with info about the request.''' # Template for page to sen

Python re正则表达式模块学习【转】

感谢原作者,本文转自:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 博主还有一些比较好的python文档在此一并推荐,可以移步查看. 文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程. 注意:本文基于Python2.4完成:如果看到不明白的词汇请记得百度谷歌或维基,whate

Python之Tkinter模块学习

本文转载自:http://www.cnblogs.com/kaituorensheng/p/3287652.html Tkinter模块("Tk 接口")是Python的标准Tk GUI工具包的接口 作为实践, 用Tkinter做了个ascii码转化查询表,本文从四点介绍 产品介绍 设计规划 相关知识 源码附件 1. 产品介绍 界面 功能 通过输入字符或数字查询对应的信息 通过选择列表中的信息查询对应的信息 2. 设计规划 规划图 3. 相关知识 首先看怎么产生第一个窗口 from T