前在一个项目中遇到用post提交一个xml,xml中含有中文,对于单独的py文件,使用urllib2.urlopen完全ok,但在django中使用就一直报编码错误,然后在网上看到这篇文章不错,决定mark一下,学习学习。原文地址:http://www.2cto.com/kf/201407/317866.html
全部是在python2.7.*的环境下。
1.Python编码基础
1.1 str和unicode
python中有两种数据模型来支持字符串这种数据类型,str和unicode,它们的基类都是basestring。比如s = "中文"
就是str类型的字符串,而u=u"中文"
就是一个unicode类型的字符串。unicode是由str类型的字符串解码后得到,unicode也可以编码成str类型。即
str --> decode --> unicode
unicode --> encode --> str
严格来说,str也许应该叫做字节串,因为对于UTF-
8
编码的str类型
"中文"
,使用len()
函数得到的结果是
6
,因为UTF-
8
编码的str类型“中文”
实际是
"\xe4\xb8\xad\xe6\x96\x87"
。而
对于unicode类型u“中文”(实际是u
"\u4e2d\u6587"
),使用len()函数得到结果是
2。
1.2 头部编码声明
在python源代码文件中如果有用到非ascii字符,比如中文,那么需要在源码文件头部声明源代码字符编码,格式如下:
1 #-*- coding: utf-8 -*-
这个格式看起比较复杂,其实python只检查#、coding,编码等字符串,可以简写成#co
ding:utf-
8
,甚至还可以写成#coding:u8。
2.Python2.x常见编码问题
2.1 头部编码声明和文件编码问题
文件头部编码声明决定了python解析源码中的str的编码选择方式,比如头部声明的是utf-8编码,则代码中s="中文"
python就会按照utf-8编码格式来解析,通过repr(s)
可以看到字符编码是"\xe4\xb8\xad\xe6\x96\x87"
,如果头部声明的编码是gbk编码,则python会对s采用gbk编码解析,结果是"\xd6\xd0\xce\xc4"
。
需要注意的是,文件本身的编码要跟文件头部声明编码一致,不然就会出现问题。文件本身的编码在Linux下面可以在vim下用命令set fenc
来查看。如果文件本身编码是gbk,而源码文件头部声明的编码是utf-8,这样如果源码中有中文就会有问题了,因为本身中文str存储是按照gbk编码来的,而python在解析str的时候又以为是utf-8编码,这样就会报SyntaxError: (unicode error) ‘utf8‘ codec can‘t decode byte
错误。
2.2 默认编码问题
下面看个python默认编码导致的问题:
1 #coding: utf-8 2 u = u"中文" 3 print repr(u) # u‘\u4e2d\u6587‘ 4 5 s = "中文" 6 print repr(s) # ‘\xe4\xb8\xad\xe6\x96\x87‘ 7 8 u2 = s.decode("utf-8") 9 print repr(u2) # u‘\u4e2d\u6587‘ 10 11 #s2 = u.decode("utf-8") #编码错误 12 #u2 = s.encode("utf-8") #解码错误
注意实例中注释掉的
2
行代码,对于unicode最好不要直接调用decode,str最好不要直接调
用encode方法。因为如果是直接调用,则相当于
1 u.encode(default_encoding).decode("utf-8") # default_encoding是python的unicode实现中用的默认编码,即 sys.getdefaultencoding() 得到的编码
如果你没有设置过,那么默认编码就是ascii,如果你的unicode本身超出了ascii编码范围就会报错。同理,如果对str直接调用encode方法,那么默认会先对str进行解码,即
1 s.decode(default_encoding).encode("utf-8")
如果str本身是中文,而default_encoding是ascii的话,解码就会出错,从而导致上面这两行会分别报
UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position...
和
UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position...
上面例子中注释掉的两行代码如果执行就会报错,当然,如果本身str或者unicode都在ascii编码范围,就没有问题。比如s = "abc"; s.encode("utf-8")
就不会有问题,语句执行后会返回一个跟s的id不同的str。
那如果要解决实例1中的问题,有两种方法,其一是明确指定编码,如下所示:
1 #coding: utf-8 2 u = u"中文" 3 print repr(u) # u‘\u4e2d\u6587‘ 4 5 s = "中文" 6 print repr(s) # ‘\xe4\xb8\xad\xe6\x96\x87‘ 7 8 u2 = s.decode("utf-8") 9 print repr(u2) # u‘\u4e2d\u6587‘ 10 11 s2 = u.encode("utf-8").decode("utf-8") # OK 12 u2 = s.decode("utf8").encode("utf-8") # OK
第二种方法就是更改python的默认编码为文件编码格式,如下所示(这里只所以要reload
sys模块,是因为python初始化后删除了setdefaultencoding方法:
1 #coding:utf-8 2 3 import sys 4 reload(sys) 5 sys.setdefaultencoding("utf-8") #更改默认编码为utf-8 6 7 u = u"中文" 8 print repr(u) # u‘\u4e2d\u6587‘ 9 10 s = "中文" 11 print repr(s) # ‘\xe4\xb8\xad\xe6\x96\x87‘ 12 13 u2 = s.decode("utf-8") 14 print repr(u2) # u‘\u4e2d\u6587‘ 15 16 s2 = u.decode("utf-8") 17 u2 = s.encode("utf-8")
2.3读写文件编码
采用python的open()方法打开文件时,read()读取的是str,编码就是文件本身的编码。而调用write()写文件时,如果参数是 unicode,则需要用指定编码encode,如果write()参数是unicode而且没有指定编码,则会采用python默认编码(sys.getdefaultencoding())encode后再写入。
1 #coding:utf-8 2 f = open("testfile") 3 s = f.read() 4 f.close() 5 print type(s) # <type str> 6 7 u = s.decode("utf-8") #testfile是utf-8编码 8 f = open("testfile", "w") 9 f.write(u.encode("gbk")) #以gbk编码写入,testfile为gbk编码 10 f.close()
此外,python的codecs模块提供了一个open()方法,可以指定编码打开文件,使用这个方法打开文件读取返回是unicode。写入时,如果 write参数是unicode,则使用打开文件时的编码写入,如果是str,则先使用默认编码解码成unicode后再以打开文件的编码写入(这里需要 注意如果str是中文,而默认编码sys.getdefaultencoding()是ascii的话会报解码错误)。
#coding:gbk import codecs f = codecs.open(‘testfile‘, encoding=‘utf-8‘) u = f.read() f.close() print type(u) # <type unicode> f = codecs.open(‘testfile‘, ‘a‘, encoding=‘utf-8‘) f.write(u) #写入unicode # 写入gbk编码的str,自动进行解码编码操作 s = ‘汉‘ print repr(s) # ‘\xba\xba‘ # 这里会先将GBK编码的str解码为unicode再编码为UTF-8写入 #f.write(s) #默认编码为ascii时,这会报解码错误。 f.close()