从Python的角度来看编码与解码

导语：

Python2和Python3中，因为默认字符集的不同而造成的麻烦，简直是程序员的梦魇！要彻底告别这个麻烦，就需要从本质上来理解编码和解码。

为什么要有编码？

对于不会英文的中国人来说，将英文翻译成中文，这个就叫做解码；而将中文翻译成英文，自然就是编码了！

这个道理在计算机中同样适用。

计算机只能识别0和1，任何文字对于计算机来说，就是0和1的排列组合。但是我们人类哪看得懂这种0和1的排列组合！

自然就需要将0和1的文字转换为我们能看得懂的文字，比如中文，英文等。

而这种0和1到文字的映射，就叫做解码；文字到0和1的映射自然就是编码了！

有了映射关系，自然就需要有个类似“表格”的东西，来记录这种映射关系了！这个“表格”就是我们常说的字符集（也叫编码集，简称编码），比如ascii编码，utf-8字符集。

习惯上，我们把人类能看懂的文字叫做字符，对应的计算机能看得懂的文字叫做字符编号（也就是字节流），而字符集就是这种字符和字符编号的映射。

为什么会有乱码？

上面我们说到，字符集有多种，那么问题来了。

比如，在编码时，我采用utf-8字符集进行文字到0和1的映射，但是解码时，又采用gbk的字符集进行0和1到文字的映射，

2种字符集的映射规则是不一样的！结果自然就是乱码！

这就像我买了张三家的锁，却用李四家配的钥匙来开门，能开门就见鬼了！

（其实对于计算机来说，根本没有乱码这一说法！对于特定的字符，0和1的排列组合是唯一不变的，变得是映射后的文字。）

关于文件编码

不知道有没有人有过这样的疑问，CPU一个只能运算0和1的器件，是如何能够处理文本、图片、视频和声音这些资源的？

其实这就要讲到文件编码。

以下文字来自知乎网友的解答：

作者：DJ Hitori
链接：https://www.zhihu.com/question/27805272/answer/74539468
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

文字：

有若干种标准可以用8~16位二进制数表示一个字符，比如用8位数表示英语字母数字的ASCII，用16位数表示几乎所有语言所有字符的Unicode等。以ASCII为例，这个标准用01000001这个数表示大写的A，于是某个文字处理软件看到这个数字知道这是A，然后向一个字体文件询问字母A长什么样，然后把它画在屏幕上，你就看到了A。

图像：

最简单的格式叫“位图”（BMP），用24位二进制数表示图像中的一个点，这24位数中8位表示这个点有多少红色，8位表示多少绿色，8位表示多少蓝色，三种原色组合起来就可以表示几乎所有的颜色。很多个24位数连在一起，就是很多个点，于是就组成了一幅图像。除此以外还有其他格式以更少的数字表示同样多的图像内容，如JPG、PNG等。

声音：

声音是波，是数学上的连续函数，而计算机无法理解连续函数，所以每秒取样44100次，把1秒的声音变成44100个数字记录下来，这是录音的过程。回放时，把这些数字交给声卡，声卡控制喇叭按照这些数字表示的幅度震动，就发出了声音。同样，除了44100个数字（这是WAV格式）以外还有其他格式以更少的数字表示同样多的声音，如MP3、OGG等。

视频：

既然有了图像和声音的标准，那么每秒钟24~60幅图像再加上1秒钟的声音就组成了1秒钟的视频内容。不过这种做法的数据量异常庞大，所以没人这么干，科学家们发明了各种编码方式以非常非常少（相对于未压缩）的数字表示同样多的视频内容，如H.264等。

各种软件控制CPU按照各种标准理解了多媒体内容后，计算出屏幕上每一个点应该是什么颜色（和位图一样），然后把这些计算结果交给显卡，显卡把这一堆数字表示的颜色画到屏幕上，这叫做一次刷新。一般来说每秒刷新60次，这样你就流畅地看到了你所打开的多媒体内容。

了解了编码和解码的大环境之后，再来看看Python中的编码和解码：

字符串类型

Python2中字符串类型有2种，unicode和str。

>>> s = ‘中国‘
>>> s
‘\xe4\xb8\xad\xe5\x9b\xbd‘
>>> u = u‘中国‘
>>> u
u‘\u4e2d\u56fd‘
>>> type(s)
<type ‘str‘>
>>> type(u)
<type ‘unicode‘>

Python3中字符串类型只有str一种。

>>> s = ‘中国‘
>>> s
‘中国‘
>>> type(s)
<class ‘str‘>
>>> u = u‘中国‘
>>> u
‘中国‘
>>> type(u)
<class ‘str‘>

默认字符集

Python2中默认字符集为ascii，其中默认中文字符集为utf-8。

>>> sys.getdefaultencoding()
‘ascii‘

Python3中，无论什么文，默认字符集为utf-8。

>>> sys.getdefaultencoding()
‘utf-8‘

关于编码和字节流

编码的结果为字节流。

Python2，str即是字节流

>>> u.encode(‘gbk‘)
‘\xd6\xd0\xb9\xfa‘
>>> u.encode(‘utf-8‘)
‘\xe4\xb8\xad\xe5\x9b\xbd‘
>>> s
‘\xe4\xb8\xad\xe5\x9b\xbd‘

>>> s = b‘中国‘
>>> s
‘\xe4\xb8\xad\xe5\x9b\xbd‘
>>> type(s)
<type ‘str‘>
>>> bytes(s)
‘\xe4\xb8\xad\xe5\x9b\xbd‘

Python3，不能够直接定义中文字节流

>>> s.encode(‘utf-8‘)
b‘\xe4\xb8\xad\xe5\x9b\xbd‘

>>> s = b‘中国‘
  File "<stdin>", line 1
SyntaxError: bytes can only contain ASCII literal characters.

关于解码

解码的结果为str(python3)或者unicode(python2)

Python2

>>> s.decode(‘utf-8‘)
u‘\u4e2d\u56fd‘
>>> u
u‘\u4e2d\u56fd‘

Python3

>>> a
b‘\xe4\xb8\xad\xe5\x9b\xbd‘
>>> a.decode()
‘中国‘

检测

可以通过isinstance()来判断类型

>>> isinstance(a,str)
True
>>> isinstance(b‘qq‘,str)
True

关于错误

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd6 in position 0: invalid continuation byte

出现上述错误的原因在于：编码时使用的字符集和解码时使用的字符集不一致。

拓展：

\0x：当输出的数转换为16进制只有1位时，在前面补0，如 0a，其它情况按照实际情况输出。

\x：按照输出数转换为16进制的实际位数输出。

此外，小写x和大写X也有点区别，小写的x输出小写符号的16进制，大写X则输出大写的（主要针对ABCDEF这六位）

时间： 2024-10-14 03:55:10

从Python的角度来看编码与解码的相关文章

Python中进行Base64编码和解码

Base64编码是一种“防君子不防小人”的编码方式.广泛应用于MIME协议,作为电子邮件的传输编码,生成的编码可逆,后一两位可能有“=”,生成的编码都是ascii字符.优点:速度快,ascii字符,肉眼不可理解缺点:编码比较长,非常容易被破解,仅适用于加密非关键信息的场合Python中进行Base64编码和解码>>> import base64>>> s = '我是字符串'>>> a = base64.b64encode(s)>>>

Python数据对象的编码和解码，json和pickle模块，base64模块的简单使用

1.面向对象对象:生活中的客观事物类:对事物的抽象,在代码中实现class类型类属性:这类事物具有的特点或者属性类方法:这类事物具有的行为,可以实现的方法实例:使用之前对类的实例化之后的结果实例属性:对象具有的一些描述对象或者形容对象的属性,对象具体具有的特性实例方法:对象具有的方法,行为动作 1.查看对象所拥有的方法 dir(对象) 例如 print(dir(列表))1.类中的实例(类)属性和方法命名风格属性:名词方法:动词 2.Python中万物皆对象 _对象名,对象私有化

Python中字符的编码与解码

1 文本和字节序列我们都知道字符串,就是由一些字符组成的序列构成串,那么字符又是什么呢?计算机只能识别二进制的东西,那么计算机又为什么会显示我们的汉字,或者是某个字母呢? 由于最早发明使用计算机是美国人,他们为了解决了英语如何在电脑上显示,就制定了一套标准:ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码),主要用于显示现代英语和其他西欧语言.到目前为止共定义了128个字符,从0-127的二进制数分别

python+requests——URL的编码和解码

from urllib.parse import quote,unquote d = {'lang':'python','type':'testing','ccountry':quote('中国')} print(d) #执行结果:{'lang': 'python', 'type': 'testing', 'ccountry': '%E4%B8%AD%E5%9B%BD'} print(unquote('%E4%B8%AD%E5%9B%BD')) #执行结果:中国原文地址:https://www

Python学习笔记八：文件操作（续），文件编码与解码，函数，递归，函数式编程介绍，高阶函数

文件操作(续) 获得文件句柄位置,f.tell(),从0开始,按字符数计数 f.read(5),读取5个字符返回文件句柄到某位置,f.seek(0) 文件在编辑过程中改变编码,f.detech() 获取文件编码,f.encoding() 获取文件在内存中的编号,f.fileno() 获取文件终端类型(tty.打印机等),f.isatty() 获取文件名,f.name() 判断文件句柄是否可移动(tty等不可移动),f.seekable() 判断文件是否可读,f.readable() 判断文件是

python中的编码与解码

编码与解码首先,明确一点,计算机中存储的信息都是二进制的编码/解码本质上是一种映射(对应关系),比如‘a’用ascii编码则是65,计算机中存储的就是00110101,但是显示的时候不能显示00110101,还是要显示'a',但计算机怎么知道00110101是'a'呢,这就需要解码,当选择用ascii解码时,当计算机读到00110101时就到对应的ascii表里一查发现是'a',就显示为'a' 编码:真实字符与二进制串的对应关系,真实字符→二进制串解码:二进制串与真实字符的对应关系,二进制

python第三天学习复习，集合set，文件操作，函数（普通函数，递归，高阶函数），字符编码和解码

三元运算 age = 23 #就是if else的简单写法 a = age if age < 20 else 25 集合 set #集合是无序切不重复的, #当对列表去重复的时候,可以直接使用 set(list),就将list转为set,并去除中间重复的 list = [1,2,3,4,5,5,6,7,8,9,1] s = set(list) 运行结果:可以发现将 list中重复的去掉,并且类型变成set,再使用list(set),转为list 集合操作 # Author:zylong set1

python之is 和 == 的区别//编码和解码

一.is 和 == 的区别: == 比较 #比较两边的值 is 比较 #比较的是内存地址 id()是python的一个内置函数,通过id()我们可以查到一个变量表的值在内存中的地址 (只限于数字和字符串是True) #数字小数据池 : -5~256 1.字符串中如果有特殊字符,那么不会添加到小数池中,他们的内存地址就不一样字符串中单个*20以内他们的内存一样,超过20个就不会添加到小数据池;单个*以上内存地址就不一样注意:pycharm是个坑,一个py文件中所

python的编码与解码

######################### # Python中的字符类型 # ######################### # Python中的字符类型分两种: # 1. str类型:ascii表中的字符,占一个字节,所以也叫字节字符.字面量用双引号表示. # 2. unicode类型:一个字符串占用的字节数由保存时采用的编码格式相关.字面量用带"u"前缀的双引号表示. s = 'OK, ' u = u'我, ' u1 = u'我' u2 = u'爱Python' pri