python 之编码问题详解

前在一个项目中遇到用post提交一个xml,xml中含有中文,对于单独的py文件,使用urllib2.urlopen完全ok,但在django中使用就一直报编码错误,然后在网上看到这篇文章不错,决定mark一下,学习学习。原文地址:http://www.2cto.com/kf/201407/317866.html

全部是在python2.7.*的环境下。

1.Python编码基础

1.1 str和unicode

python中有两种数据模型来支持字符串这种数据类型,str和unicode,它们的基类都是basestring。比如s = "中文"就是str类型的字符串,而u=u"中文"就是一个unicode类型的字符串。unicode是由str类型的字符串解码后得到,unicode也可以编码成str类型。即

        str --> decode --> unicode

unicode --> encode --> str

严格来说,str也许应该叫做字节串,因为对于UTF-8编码的str类型"中文",使用len()函数得到的结果是6,因为UTF-8编码的str类型“中文”实际是"\xe4\xb8\xad\xe6\x96\x87"。而对于unicode类型u“中文”(实际是u"\u4e2d\u6587"),使用len()函数得到结果是2。

1.2 头部编码声明

在python源代码文件中如果有用到非ascii字符,比如中文,那么需要在源码文件头部声明源代码字符编码,格式如下:

1 #-*- coding: utf-8 -*-

这个格式看起比较复杂,其实python只检查#、coding,编码等字符串,可以简写成#coding:utf-8,甚至还可以写成#coding:u8。

2.Python2.x常见编码问题

2.1 头部编码声明和文件编码问题

文件头部编码声明决定了python解析源码中的str的编码选择方式,比如头部声明的是utf-8编码,则代码中s="中文"python就会按照utf-8编码格式来解析,通过repr(s)可以看到字符编码是"\xe4\xb8\xad\xe6\x96\x87",如果头部声明的编码是gbk编码,则python会对s采用gbk编码解析,结果是"\xd6\xd0\xce\xc4"

需要注意的是,文件本身的编码要跟文件头部声明编码一致,不然就会出现问题。文件本身的编码在Linux下面可以在vim下用命令set fenc来查看。如果文件本身编码是gbk,而源码文件头部声明的编码是utf-8,这样如果源码中有中文就会有问题了,因为本身中文str存储是按照gbk编码来的,而python在解析str的时候又以为是utf-8编码,这样就会报SyntaxError: (unicode error) ‘utf8‘ codec can‘t decode byte错误。

2.2 默认编码问题

下面看个python默认编码导致的问题:

 1 #coding: utf-8
 2 u = u"中文"
 3 print repr(u) # u‘\u4e2d\u6587‘
 4
 5 s = "中文"
 6 print repr(s) # ‘\xe4\xb8\xad\xe6\x96\x87‘
 7
 8 u2 = s.decode("utf-8")
 9 print repr(u2) # u‘\u4e2d\u6587‘
10
11 #s2 = u.decode("utf-8") #编码错误
12 #u2 = s.encode("utf-8") #解码错误

注意实例中注释掉的2行代码,对于unicode最好不要直接调用decode,str最好不要直接调用encode方法。因为如果是直接调用,则相当于

1 u.encode(default_encoding).decode("utf-8")    # default_encoding是python的unicode实现中用的默认编码,即 sys.getdefaultencoding() 得到的编码

如果你没有设置过,那么默认编码就是ascii,如果你的unicode本身超出了ascii编码范围就会报错。同理,如果对str直接调用encode方法,那么默认会先对str进行解码,即

1 s.decode(default_encoding).encode("utf-8")

如果str本身是中文,而default_encoding是ascii的话,解码就会出错,从而导致上面这两行会分别报

UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position...

UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position...

上面例子中注释掉的两行代码如果执行就会报错,当然,如果本身str或者unicode都在ascii编码范围,就没有问题。比如s = "abc"; s.encode("utf-8")就不会有问题,语句执行后会返回一个跟s的id不同的str。

那如果要解决实例1中的问题,有两种方法,其一是明确指定编码,如下所示:

 1 #coding: utf-8
 2 u = u"中文"
 3 print repr(u) # u‘\u4e2d\u6587‘
 4
 5 s = "中文"
 6 print repr(s) # ‘\xe4\xb8\xad\xe6\x96\x87‘
 7
 8 u2 = s.decode("utf-8")
 9 print repr(u2) # u‘\u4e2d\u6587‘
10
11 s2 = u.encode("utf-8").decode("utf-8")  # OK
12 u2 = s.decode("utf8").encode("utf-8")   # OK

第二种方法就是更改python的默认编码为文件编码格式,如下所示(这里只所以要reload sys模块,是因为python初始化后删除了setdefaultencoding方法:

 1 #coding:utf-8
 2
 3 import sys
 4 reload(sys)
 5 sys.setdefaultencoding("utf-8") #更改默认编码为utf-8
 6
 7 u = u"中文"
 8 print repr(u) # u‘\u4e2d\u6587‘
 9
10 s = "中文"
11 print repr(s) # ‘\xe4\xb8\xad\xe6\x96\x87‘
12
13 u2 = s.decode("utf-8")
14 print repr(u2) # u‘\u4e2d\u6587‘
15
16 s2 = u.decode("utf-8")
17 u2 = s.encode("utf-8")

2.3读写文件编码

采用python的open()方法打开文件时,read()读取的是str,编码就是文件本身的编码。而调用write()写文件时,如果参数是 unicode,则需要用指定编码encode,如果write()参数是unicode而且没有指定编码,则会采用python默认编码(sys.getdefaultencoding())encode后再写入。

 1 #coding:utf-8
 2 f = open("testfile")
 3 s = f.read()
 4 f.close()
 5 print type(s) # <type str>
 6
 7 u = s.decode("utf-8") #testfile是utf-8编码
 8 f = open("testfile", "w")
 9 f.write(u.encode("gbk")) #以gbk编码写入,testfile为gbk编码
10 f.close()

此外,python的codecs模块提供了一个open()方法,可以指定编码打开文件,使用这个方法打开文件读取返回是unicode。写入时,如果 write参数是unicode,则使用打开文件时的编码写入,如果是str,则先使用默认编码解码成unicode后再以打开文件的编码写入(这里需要 注意如果str是中文,而默认编码sys.getdefaultencoding()是ascii的话会报解码错误)。

#coding:gbk
import codecs

f = codecs.open(‘testfile‘, encoding=‘utf-8‘)
u = f.read()
f.close()
print type(u) # <type unicode>

f = codecs.open(‘testfile‘, ‘a‘, encoding=‘utf-8‘)
f.write(u) #写入unicode

# 写入gbk编码的str,自动进行解码编码操作
s = ‘汉‘
print repr(s) # ‘\xba\xba‘
# 这里会先将GBK编码的str解码为unicode再编码为UTF-8写入
#f.write(s) #默认编码为ascii时,这会报解码错误。
f.close()
时间: 2024-11-08 14:42:04

python 之编码问题详解的相关文章

Python数据类型及其方法详解

Python数据类型及其方法详解 我们在学习编程语言的时候,都会遇到数据类型,这种看着很基础也不显眼的东西,却是很重要,本文介绍了python的数据类型,并就每种数据类型的方法作出了详细的描述,可供知识回顾. 一.整型和长整型 整型:数据是不包含小数部分的数值型数据,比如我们所说的1.2.3.4.122,其type为"int" 长整型:也是一种数字型数据,但是一般数字很大,其type为"long" 在python2中区分整型和长整型,在32位的机器上,取值范围是-2

Python中time模块详解

在Python中,与时间处理有关的模块就包括:time,datetime以及calendar.这篇文章,主要讲解time模块. 在开始之前,首先要说明这几点: 在Python中,通常有这几种方式来表示时间:1)时间戳 2)格式化的时间字符串 3)元组(struct_time)共九个元素.由于Python的time模块实现主要调用C库,所以各个平台可能有所不同. UTC(Coordinated Universal Time,世界协调时)亦即格林威治天文时间,世界标准时间.在中国为UTC+8.DST

Python对Excel操作详解

  Python对Excel操作详解 文档摘要: 本文档主要介绍如何通过python对office excel进行读写操作,使用了xlrd.xlwt和xlutils模块.另外还演示了如何通过Tcl  tcom包对excel操作. 关键字: Python.Excel.xlrd.xlwt.xlutils.TCl.tcom     1 Python简介 Python是一种面向对象.直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.

python中threading模块详解(一)

python中threading模块详解(一) 来源 http://blog.chinaunix.net/uid-27571599-id-3484048.html threading提供了一个比thread模块更高层的API来提供线程的并发性.这些线程并发运行并共享内存. 下面来看threading模块的具体用法: 一.Thread的使用 目标函数可以实例化一个Thread对象,每个Thread对象代表着一个线程,可以通过start()方法,开始运行. 这里对使用多线程并发,和不适用多线程并发做

python之模块datetime详解

# -*- coding: utf-8 -*- #python 27 #xiaodeng #python之模块datetime详解 import datetime #data=datetime.date(2015,11,9)#表示日期的类 #data=datetime.time(hour[,minute[,second[,microsecond[,tzinfo]]]])#表示时间的类,从小时时间开始为参数 #data=datetime.datetime(year,month,day[,hour[

python里的splitlines详解

Python的split方法函数可以分割字符串成列表,默认是以空格作为分隔符sep来分割字符串. In [1]: s = "www jeapedu com" In [2]: print s.split() ['www', 'jeapedu', 'com'] 当然可以改变sep分割字符串为其他字符串. In [6]: t = "www.jeapedu.com" In [7]: print t.split(".") ['www', 'jeapedu'

python的sorted排序详解

排序,在编程中经常遇到的算法,我也在几篇文章中介绍了一些关于排序的算法.有的高级语言内置了一些排序函数.本文讲述Python在这方面的工作.供使用python的程序员们参考,也让没有使用python的朋友了解python.领略一番"生命有限,请用Python"的含义. 内置函数sorted()/list.sort()的使用 简单应用 python对list有一个内置函数:sorted(),专门用于排序.举例: >>> a=[5,3,6,1,9,2] >>&

X264编码流程详解(转)

http://blog.csdn.net/xingyu19871124/article/details/7671634 对H.264编码标准一直停留在理解原理的基础上,对于一个实际投入使用的编码器是如何构建起来一直感觉很神秘,于是决定在理解理论的基础上潜心于编码器实现框架.关于开源的H264编码器有很多,JMVC,T264.X264,这里选择X264,因为网上关于X264源码分析资源很多.X264编码器是一个开源的经过优化的高性能H.264编码器,目前最新的源码在本人的I5处理器的PC机上,编码

python 高阶函数详解。

1,概念: Iterable 和 IteratorIterable 表示该变量可以被 for in 进行迭代.Iterator 表示该变量可以被 next(o)进行迭代(上一个表示有限迭代,下一个表示一个惰性的迭代概念,可以无限迭代.)一般的Iterable 的变量有:L=[{},[],(1,),{3:4},{3,4}]for x in L:print(isinstance(x,Iterable))print(isinstance(x,Iterator)) truefalse 可见,基础变量Li