1. 问题背景
在使用urllib2 module抓取web数据时,如果希望使用如何request header,减少传输时数据量。返回的数据,是经过gzip压缩的。直接按照 content.decode(“utf8”), 解码会出现异常,并且也无法检测网页数据的实际编码类型。
2. 问题分析
因为http请求中,如果在request header包含”Accept-Encoding”:”gzip, deflate”, 并且web服务器端支持,返回的数据是经过压缩的,这个好处是减少了网络流量,由客户端根据header,在客户端层解压,再解码。urllib2 module,获取的http response数据是原始数据,没有经过解压,所以这是乱码的根本原因。
3. 解决方案
3.1 Request header移除”Accept-Encoding”:”gzip, deflate”
最快的方案,能直接得到可解码的数据,缺点是,传输流量会增加很多。
3.2 使用zlib module,解压缩,然后解码,得到可读的明文数据。
这也是本文使用的方案
4. 源码解析
代码如下, 这是一个典型的模拟form表单,post方式提交请求数据的代码,基于python 2.7
,
代码块
代码块语法遵循标准markdown代码
#! /usr/bin/env python2.7
import sys
import zlib
import chardet
import urllib
import urllib2
import cookielib
def main():
reload( sys )
sys.setdefaultencoding(‘utf-8‘)
url = ‘http://xxx.yyy.com/test‘
values = {
"form_field1":"value1",
"form_field2":"TRUE",
}
post_data = urllib.urlencode(values)
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
headers ={"User-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:36.0) Gecko/20100101 Firefox/36.0",
"Referer":"http://xxx.yyy.com/test0",
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language":"en-US,en;q=0.5",
"Accept-Encoding":"gzip, deflate",
"Connection":"keep-alive",
# "Cookie":"QSession=",
"Content-Type":"application/x-www-form-urlencoded",
}
req = urllib2.Request(url,post_data,headers)
response = opener.open(req)
content = response.read()
gzipped = response.headers.get(‘Content-Encoding‘)
if gzipped:
html = zlib.decompress(content, 16+zlib.MAX_WBITS)
else:
html = content
result = chardet.detect(html)
print(result)
print html.decode("utf8")
if __name__ == ‘__main__‘:
main()
使用本脚本需要以下环境
- Mac OS 10.9+
- Python 2.7.x
目录
用 [TOC]
来生成目录:
- 问题背景
- 问题分析
- 解决方案
- 1 Request header移除Accept-Encodinggzip deflate
- 2 使用zlib module解压缩然后解码得到可读的明文数据
- 源码解析
-
- 代码块
- 目录
-
时间: 2024-11-05 14:46:54