编码解码 python

之前一直对python文件中编码解码糊里糊涂，今天看到一篇文章，觉得把我讲的有点明白了。写个心得吧。

1、编码解码是怎么一回事？

Python 里面的编码和解码也就是 unicode 和 str 这两种形式的相互转化。

编码是 unicode -> str，相反的，解码就是 str -> unicode。

str形式，也就是字符串形式都是以一定的编码格式存在的，常见的编码格式有utf-8、ASCII、gb2312等等。

str1.decode(‘gb2312’)，表示将gb2312编码的字符串str1解码成unicode。

str2.encode(‘utf-8’)，表示将unicode字符串str2转换成用utf-8格式编码的字符串。

不同编码格式的字符串之间相互转换编码格式的话，都要先解码成unicode，再编码成其他编码格式的字符串。就拿上面的str1来说，将str1转成utf-8编码的字符串，需要这么做：

str1.decode(‘gb2312’).encode(‘utf-8’)。

2、如何在python文件中指定编码、解码格式呢

我们在编写python脚本的时候，通常在#! /usr/bin/env python下面一行指定该py文件的默认编码格式。比如# coding=utf-8，表示该py文件中的字符串都是以utf-8格式编码的。

而sys.defaultencoding则指明了默认的字符串解码方式。在解码时没有明确指明解码方式的时候使用。

还要记住一点，字符串用什么格式编码，就要用相同的格式解码才能变成unicode。

3、编码解码格式要一致

! /usr/bin/env python

-- coding: utf-8 --

s = ‘中文‘ # 这里的 s 是utf-8编码的字符串类型

s.encode(‘gb18030‘) 1234

观察上面的代码，我们预计会报错误。因为第二行指定了该py文件里面的字符串默认编码格式是utf-8的，所以s这个字符串就是utf-8编码的字符串。当以gb18030编码格式对s进行解码的时候，将会出错，因为“字符串”

第4句代码将 s 重新编码为 gb18030 的格式，即进行 unicode -> str 的转换。因为s本身就是 str 类型的，因此 Python 会自动的先将 s 解码为 unicode，然后再编码成 gb18030。

而当对s进行解码的时候，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是ANSCII，如果 s 不是这个类型就会出错。而我们拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式是 utf8 的（因为该py文件的第二行指明了utf-8编码），所以出错了:

UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe4 in position

0: ordinal not in range(128)

对于这种情况，我们有两种方法来改正错误：

一是明确的指示出 s 的解码方式

! /usr/bin/env python

-- coding: utf-8 --

s = ‘中文‘

s.decode(‘utf-8‘).encode(‘gb18030‘) 1234

二是更改 sys.defaultencoding 为文件的编码方式

import sys

reload(sys)

sys.setdefaultencoding(‘utf-8‘)

str = ‘中文‘

str.encode(‘gb18030‘)12345678910

这里在调用sys.setdefaultencoding(‘utf-8’) 设置默认的解码方式之前，执行了reload(sys)，这是必须的，因为python在加载完sys之后，会删除 sys.setdefaultencoding 这个方法，我们需要重新载入sys，才能调用 sys.setdefaultencoding 这个方法。

本文来自 liuchunming033 博客，全文地址请点击：https://blog.csdn.net/liuchunming033/article/details/52223612?utm_source=copy

原文地址：https://www.cnblogs.com/zjj-tiantian/p/9738731.html

时间： 2024-10-06 11:24:18

编码解码 python

编码解码 python的相关文章

常见编码解码脚本

linux之系统编码，python编码，文件编码

理解netty对protocol buffers的编码解码

day8_文件操作及编码解码

python2和python3编码解码详解

Python8_关于编码解码和utf-8

[C语言]Base64编码解码

服务器端获取表单数据的编码解码问题（servlet）

百度移动版的url编码解码代码

编码 解码 python

编码 解码 python的相关文章

编码解码 python

编码解码 python的相关文章