python编码问题,从隐隐作痛到除去病根

查阅的资料链接

python源文件默认编码与内部默认编码

1.源文件默认编码为ASCII,所以,如果不显示声明当前代码用什么编码写的,python会用ASCII去解析,如果源文件中有UTF-8编码,由于ASCII不能翻译UTF8编码,则会报错了.

#file test.py  使用UTF8保存
a=‘a‘
b=‘好‘

运行后

SyntaxError: Non-ASCII character ‘\xe5‘ in file test.py on line 2, but no encodi
ng declared; see http://python.org/dev/peps/pep-0263/ for details

上面报错说character ‘\xe5‘是非ASCII码,因为‘\xe5‘是‘好‘的UTF8字节串的一部分

如下

在编码为UTF8的终端中打印‘好‘
>>> a=‘好‘
>>> a
‘\xe5\xa5\xbd

所以,当前的源文件是什么编码编辑的,一定要声明出来.比如

#coding=utf-8 #先在这里声明
#下面是程序代码

2.有一点需要注意的是,在终端的命令行模式编辑代码时,不需要再声明当前写代码时所用的编码,我猜是因为python在命令行模式时,直接读取当前系统的编码

例如,windows的cmd下再查看‘好‘这个字

在编码为GBK的终端(cmd)打印‘好‘
>>> a=‘好‘
>>> a
‘\xba\xc3‘

可以看到在cmd中,‘好‘是两个字节,不同于上的三个字节

3.内部默认编码为ASCII,导致使用一些函数时需要注意,比如str和unicode

有时候,运行一个脚本,比如我们通常用utf8编码保存脚本,如果在windows的cmd上运行,则print中文时会乱码,因为cmd的默认编码是GBK,它解释UTF8的字节串时,自然会弄的乱七八糟.

那么如何让终端打印信息时,不考虑终端的编码也不乱码?

1.调整终端默认编码

2.让脚本迎合终端的口味,要么方案a:脚本就保存为GBK的,要么方案b:在需要终端显示的地方转一下码,我说下b方案

#coding=utf-8
import sys
a=‘好‘
#这个文件是保存为UTF8编码,如果要在cmd上正常显示,需要转为GBK,
aUnicode = a.decode(‘utf-8‘) #先解码为unicode,解码的时候要告诉python,a是一个utf8字节串,不要又以为是ASCII字节串
aGBK=aUnicode.encode(‘GBK‘)#将unicdode编码的a再编码为GBK
print aGBK

以上有一个小插曲,我直接用a.encode(‘GBK‘)行吗?这样是不行的,因为编码(encode)是针对unicode而言的,必须对unicode编码,如果硬生生使用类似‘我‘.encode(‘GBK‘),则会报错的

如下

>>> a=‘好‘
>>> a.encode(‘GBK‘)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xba in position 0: ordinal
not in range(128)
>>>

看到了吧,python爬出了Unicode解码异常,python又说‘ascii‘怎么怎么样,为啥啊?

因为python只会对unicode字符串进行encode,如果非要对字节串encode,则它会先把字节串decode,也就是这样

a.encode(‘GBK‘)==(   a.decode(‘默认编码‘).encode(‘gbk‘)   )

上面的unicode解码异常,也是在进行解码的时候抛出的,python认为a就是用默认编码ASCII编码的,可a是UTF8编码啊,‘好‘在ASCII中不存在,所以会报错

3.我不管你终端什么编码,终端你都要给我正常显示.

那就用最直接的unicode编码啦,让python自己根据系统的当前编码进行转码打印出来

#coding=utf-8
print u‘我‘

当 print 一个unicode字符串时,打印出来的是unicode对应的系统编码的字符,从而不会乱码了

衍生的一个小问题,我就是想看某变量unicode是啥样的,那就用reper函数(返回一个对象的字符串形式)

>>> a=u‘好‘
>>> a
u‘\u597d‘
>>> print repr(a)
u‘\u597d‘

说一下str函数

str函数,以字符串的形式返回对象的呈现(在我理解,就是人可以看的呈现),

针对不同的对象,str有不同的操作方法,比如针对于string类型,它会原样返回

对于function类型,str函数会以字符串的形式返回这个函数在内存中的位置

string类型使用str函数时,注意一点,如果是unicode类型的字符串,一定注意当前的默认编码

如下,我在cmd,编码为GBK,python默认编码为ASCII

>>> a=u‘好‘
>>> str(a)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: ‘ascii‘ codec can‘t encode character u‘\u597d‘ in position 0
: ordinal not in range(128)
>>>

以上对unicode使用str函数时,这个转换涉及到默认编码内部首先进行这样的转换:unicodeStr.encode(defaultencoding).

如果defaultencoding不是编写代码本身的编码,那就会抛出异常.

所以,要设置defaultencoding,如下

>>> import sys
>>> reload(sys)
<module ‘sys‘ (built-in)>
>>> sys.setdefaultencoding(‘GBK‘)  #规定默认编码为GBK
>>> a=u‘啦‘
>>> str(a)  #这里就不会报错了
‘\xc0\xb2‘
>>> str(a)==a
True

时间： 2024-11-11 16:15:30

python编码问题,从隐隐作痛到除去病根的相关文章

PYTHON编码处理-str与Unicode的区别

一篇关于str和Unicode的好文章整理下python编码相关的内容注意: 以下讨论为Python2.x版本, Py3k的待尝试开始用python处理中文时,读取文件或消息,http参数等等一运行,发现乱码(字符串处理,读写文件,print) 然后,大多数人的做法是,调用encode/decode进行调试,并没有明确思考为何出现乱码所以调试时最常出现的错误错误1 Traceback (most recent call last): File "<stdin>"

Python编码规则

1. 命名规则 1.1 变量名.包名.模块名变量名通常有字母.数字和下划线组成,且首字母必须是字母或下划线,并且不能使用python的保留字:包名.模块名通常用小写字母 1.2 类名.对象名类名首字母用大写,其他字母采用小写:对象名用小写字母.类的属性和方法名以对象作为前缀,对象通过操作符"."访问属性和方法.类的私有变量.私有方法以两个下划线作为前缀. l.3 函数名函数名通常采用小写,并用下划线或单词首字母大写来增加名称的可读性,导入的函数以模块名作为前缀. 2. 模

Python 编码

Python 编码 ASCII.Unicode.UTF-8 以及 gbk 在具体说明 Python 编码之前,先来理清 ASCII.Unicode.UTF-8.gbk 究竟是什么? 这边仅简单介绍下,具体请百度. ASCII:是现今最通用的单字节编码系统.ASCII(仅1~127) 仅可代表英文.数字及一些符号等,如,A 的 ASCII 码为65(十进制). Unicode:为了解决传统的字符编码方案的局限而产生,为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言.跨平台进行文本

说说Python编码规范

前言已有近两个月没有发表过文章了,前段时间外甥和女儿过来这边渡暑假,平常晚上和周末时间都陪着她们了,趁这个周末有空,再抽空再把这块拾起来. 这么久没写了,再次拿起键盘,想想,发表些什么呢,想起上次公司的代码评审委员会下周其中一个议题是关于Python编码规范的整理,那就趁热打铁,整理一份关于Python编码规范的文章,也为那些写Python的人,提供一些编码注意的一些事项或者说是参考吧. 编码规范的作用规范故明思义,就是通过不断的总结,吸取好的点,从而形成的一

python 编码问题：'ascii' codec can't encode characters in position 的解决方案

问题描述: Python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),python没办法处理非ascii编码的,此时需要自己设置将python的默认编码,一般设置为utf8的编码格式. 查询系统默认编码可以在解释器中输入以下命令: Python代码

Python Solve UnicodeEncodeError 'gbk' / 'ascii' / 'utf8' codec can't encode character '\x??' in position ? 解决有关Python编码的错误

在Python中,处理中文字符一直是很令人头痛的问题,一言不合就乱码,而且引起乱码的原因也不尽相同,有时候是python本身默认的编码器设置的不对,有时候是使用的IDE的解码器不对,还有的时候是终端terminal的解码器不对,有时候同一份代码在Python2上正常运行,Python3上就不行了,反正产生乱码的原因很多,这里就列举一些博主遇到过的一些错误及其解决方案: Error 1: UnicodeEncodeError: 'gbk' codec can't encode character