python爬虫编码问题

爬虫,新手很容易遇到编码解码方面的问题。在这里总结下。

如果处理不好编码解码的问题,爬虫轻则显示乱码,重则报错UnicodeDecodeError: ‘xxxxxx‘ codec can‘t decode byte 0xc6 in position 1034: invalid continuation byte,这个xxx可能是 ascii utf8  gbk等。

大家一定要选个专门的时间学习下这方面,网上资源很多的。因为编码 解码岁不关程序逻辑功能大局 ,但几乎每个程序中都会遇到这个东西,所以必须专门花时间学习实践下以避免频繁与麻烦。

1.先来两个网址,选个gb2312的和一个utf8的网址。

utf8网站选择  https://www.baidu.com 百度

gb2312的网站选择 http://www.autohome.com.cn/beijing/#pvareaid=100519  汽车之家

url1=‘https://www.baidu.com‘url2=‘http://www.autohome.com.cn/beijing/#pvareaid=100519‘contentx=requests.get(url2).content

print unicode(contentx)
print contentx.encode(‘gbk‘)
print contentx.encode(‘utf8‘)
先说请求url1的情况

先上这六行代码,如果是请求url1,那么在py2.7.13上不会报错,在py2.7.12上会报错,但在pycharm的控制台print的结果乱不乱码我就不保证了,pycharm的设置中有project encoding选项,如果你设置的是utf8或者gbk,那么第二个和第三个势必会有一个是乱码的显示。同一个py代码如果你在pychamr编辑器设置的是utf8,结果正常显示,那么在cmd运行python  xx.py看到的结果那就必然会乱码了。

上面说的是py2.7.13,如果你是2.7.12,那么结果就不是这样的了,在2.7.12中,上面六行代码不会是显示乱码那么简单了,而是直接报错

在2.7.12中运行下面这句
print requests.get(url1).content.encode(‘gbk‘)或者运行unicode(requests.get(url1).content)会提示

因为直接从字符串转另一个编码格式格式,先会用默认的编码decode解码,再用指定的encode格式来编码了。

可以在python脚本中运行这句话
import sysprint sys.getdefaultencoding()

2.7.13的

2.7.12的


py2.7.13的打印结果是utf8,而py2.7.12的打印结果却是ascii,url1的网页编码是utf8,用ascii解码会出错。

要使py2.7.12中不报这个错误,那么可以加入下面这句经典的代码

加入后,就不会出现 ascii codec cant decode 的提示了;如果不加入上面这句话,想把得到的内容encode成gbk格式的,可以按下面这么做

print requests.get(url1).content.encode(‘gbk‘)把这个改成print requests.get(url1).content.decode(‘utf8‘).encode(‘gbk‘),这样就不不会按照默认的编码解码了,就可以不需要上面的reload和setdefaultcoding。
import sysprint sys.getdefaultencoding()reload(sys)sys.setdefaultencoding(‘utf8‘)

这三行代码不是万金油,不能以为写了这几句就万事大吉不会出编码问题了,如果请求的是url2,汽车之家网页是gbk格式的,
如果用print requests.get(url2).content.encode(‘utf8‘),那一样会报错从content字符串按照指定的utf8来解码成unicode,那就会报错了,这时候就需要sys.setdefaultencoding(‘gbk‘),而不是utf8了。
但你应该程序既要请求url1又要请求url2,那么不管你怎么指定默认的,如果不专门指定content的decode方式,势必会有一个报错。那么解决这个最需要的做的事情是
print requests.get(url1).content.decode(‘utf8‘).encode(‘xxxx‘)   xxx代表你想编码的方式
print requests.get(url2).content.decode(‘gbk‘).encode(‘xxxx‘)
这样做实用性就非常强了,不管你是2.7.12还是2.7.13,不管你写不写sys.setdefaultencoing和默认指定成什么,都不会出现编码问题了。

第二部分:如何知道网页的编码

使用360浏览器的右键很方便有一个编码查看的功能,你们可以试试把gbk改成utf8或者utf8改成gbk,那么浏览器会就出现乱码了。用360浏览器点击右键,99%的情况下就是网页的编码了,我是用360多年很少发现360出这种乱码错误。

除了浏览器查看外,还有一个方法是,右键点击查看源代码,下图是百度的,可以看到用的是utf8,那么把response的content用utf8 decode是不会出问题的,如果网页源码中charset是gb2312,用gbk deocde就可以。

目前我做的事舆情分析,要爬取上万个网站的新闻,用浏览器查看那肯定就不行了,进入什么网页都是未知的,如果是定向爬取,可以代码指定用什么格式decode

可以用下面这句话来获取网页编码格式re.findall(‘<meta[\s\S]*?charset="?(.*?)"‘,content,re.IGNORECASE)[0]

之前同事介绍了一个编码获取的包,名字叫chardet,用法是chardet.detect(content),这个方法非常准确,但是缺点太大了,长时间占用cpu计算,cpu使用率太高,整个爬虫速度被扯下来了。当页面内容比较大的时候,用chardet来,甚至探测一个编码方式需要15秒之久,这方法不好。

为了看到chardet到底在干什么要那么久,把日志打印出来。代码贴出来,对这个包感兴趣的可以看看。
#coding=utf8
import requests
import chardet,logging
logger=logging.getLogger(‘‘)
logger.setLevel(logging.DEBUG)
stream_handler=logging.StreamHandler()
stream_handler.setLevel(logging.DEBUG)
fmt=logging.Formatter(‘%(asctime)s - %(name)s - %(levelname)s - %(message)s‘)
stream_handler.setFormatter(fmt)
logger.addHandler(stream_handler)

url1=‘https://www.baidu.com‘
url2=‘http://www.autohome.com.cn/beijing/#pvareaid=100519‘
contentx=requests.get(url2).content
bianma=chardet.detect(contentx)
print bianma

看了此篇后,应该不至于遇到编码问题了。

				
时间: 2024-11-05 16:25:51

python爬虫编码问题的相关文章

转载:用python爬虫抓站的一些技巧总结

原文链接:http://www.pythonclub.org/python-network-application/observer-spider 原文的名称虽然用了<用python爬虫抓站的一些技巧总结>但是,这些技巧不仅仅只有使用python的开发可以借鉴,我看到这篇文章的时候也在回忆自己做爬虫的过程中也用了这些方法,只是当时没有系统的总结而已,谨以此文为鉴,为以前的爬虫程序做一个总结. 转载原文如下: 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

一. 文章介绍 前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等. 微博信息:包括转发或原创.点赞数.转发数.评论数.发布时间.微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩: http://weibo.cn/guangxianliuya 因为手机端数据相对精简简单,所以采用输

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938  禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于

Python爬虫利器四之PhantomJS的用法

前言 大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了.所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面. 其中有一个比较常用的工具,那就是 PhantomJS Full web stack No browser required PhantomJS is a headless WebKit scriptable with a Ja

python爬虫总结

主要涉及的库 requests 处理网络请求 logging 日志记录 threading 多线程 Queue 用于线程池的实现 argparse shell参数解析 sqlite3 sqlite数据库 BeautifulSoup html页面解析 urlparse 对链接的处理 关于requests 我没有选择使用python的标准库urllib2,urllib2不易于代码维护,修改起来麻烦,而且不易扩展, 总体来说,requests就是简单易用,如requests的介绍所说: built f

Python爬虫的Urllib库有哪些高级用法?

本文和大家分享的主要是python爬虫的Urllib库的高级用法相关内容,一起来看看吧,希望对大家学习python有所帮助. 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS.CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服.所以最重要的部分是存在于HTML中的,下面我 们就写个例子来扒一个网页下来. imp

Python爬虫实战二之爬取百度贴吧帖子

大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路. 2016/12/2 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子. 比如:ht

[Python爬虫] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

最近研究搜索引擎.知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前.虽然市面上讲述中文编码问题的文章数不胜数,同时以前我也讲述过PHP处理数据库服务器中文乱码问题,但是此处还是准备简单做下笔记.方便以后查阅和大家学习. 中文编码问题的处理核心都是--保证所有的编码方式一致即可,包括编译器.数据库.浏览器编码方式等,而Python通常的处理流程是将unicode作为中间转换码进行过渡.先将待处理字符串用unicode函数以正确的编码转换为Unicode码,在程序中统一用Unicode字