探究 encode 和 decode 的使用问题(Python)



很多时候在写Python程序的时候都要在头部添加这样一行代码

#coding: utf-8

或者是这样

# -*- coding:utf-8 -*-

等等

这行代码的意思就是设定同一编码格式为utf-8

计算机中存储数据的编码方式多种多样, 常用的有 unicode, utf-8, gbk, 等等

在Windows系统下,文本文件默认保存的格式应该是gbk

在以一种编码格式保存文件时,应该使用相同的编码进行解析此文件, 不然可能会出现乱码情况



今天就是想记录一下我在写Python程序时,在解析字符串字符串时何时使用decode, 何时使用encode

通常从非unicode编码转换为unicode编码使用decode(解码),相反从unicode编码转换为非unicode编码使用encode(编码)

#coding: utf-8

L = [‘你好‘]
print L  

输出

现在是utf-8编码, 一个汉字占3个字节

使用decode进行解码,将 “你好” 的编码转换为unicode

#coding: utf-8

L = [‘你好‘]
print [L[0].decode(‘utf-8‘)] 

输出

可以看到成功转化为unicode编码, 并且一个汉字占2个字节

那我现在想让utf-8编码的 “你好” 转换为gbk该如何操作呢?

这样试一下

#coding: utf-8

L = [‘你好‘]
print [L[0].encode(‘gbk‘)]  #错误示例

出现了错误

正确的方式就是先将 utf-8 使用decode转换为 unicode , 在将 unicode 使用encode转换为想要的编码gbk

#coding: utf-8

L = [‘你好‘]
print [L[-1].decode(‘utf-8‘).encode(‘gbk‘)]   # utf-8 -> unicode -> gbk

输出

成功转化为gbk编码, 并且一个汉字占2个字节



总结

(非unicode编码).decode(‘非unicode‘)     转换为unicode

(unicode编码).encode(‘非unicode‘)        转换为非unicode

如果想要从一种非unicode编码转换为另外一种非unicode编码, 需要借助unicode作为跳板先进行decode, 再进行encode



本节完......

原文地址:https://www.cnblogs.com/xinglichao/p/9192158.html

时间: 2024-10-10 19:57:37

探究 encode 和 decode 的使用问题(Python)的相关文章

Python之encode与decode浅析

 Python之encode与decode浅析 在 python 源代码文件中,如果你有用到非ASCII字符,则需要在文件头部进行字符编码的声明,声明如下: # code: UTF-8 因为python 只检查 #.coding 和编码字符串,为了美观等原因可以如下写法: #-*-coding:utf-8-*- 常见编码介绍: GB2312编码:适用于汉字处理.汉字通信等系统之间的信息交换. GBK编码:是汉字编码标准之一,是在 GB2312-80 标准基础上的内码扩展规范,使用了双字节编码.

Python encode和decode

最近对于Python2和Python3的编码和解码比较困惑,在知乎上面咨询了依云大神后对Python的编码和解码逐渐清晰起来, 在此把个人理解结合大神的指点分享一下,如下内容仅代表个人观点,不排除有错误! 首先需要明白encode == 编码,decode == 解码,encode就是把逻辑上的字符变成二进制数据,以便存储和传输. (至于编码前和解码后的字符是怎么存储的,是Python的内部实现,只有 Python 自己需要操心,你不用管; 就像你不用管整数在 Python 内存里长什么样一样,

Python 字符串的encode与decode

python的str,unicode对象的encode和decode方法 python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]. 而python中的unicode对象应该才是等同于java中的String对象,或本质上是java的char[]. 对于 s="你好" u=u"你好" 1. s.decode方法和u.encode方法是最常用的, 简单说来就是,python内部表示字符串用un

Python字符串的encode与decode研究心得——解决乱码问题

转~Python字符串的encode与decode研究心得——解决乱码问题 为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“/xe4/xb8/xad/xe6/x96/x87”的形式?为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题. 字符串在Python内部的表示是unico

python的str,unicode对象的encode和decode方法

python的str,unicode对象的encode和decode方法 python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]. 而python中的unicode对象应该才是等同于java中的String对象,或本质上是java的char[]. 对于 s="你好" u=u"你好" s="你好" u=u"你好" 1. s.decode方法和u.enc

python编码encode和decode

计算机里面,编码方法有很多种,英文的一般用ascii,而中文有unicode,utf-8,gbk,utf-16等等. unicode是 utf-8,gbk,utf-16这些的父编码,这些子编码都能转换成unicode编码,然后转化成子编码,例如utf8可以转成unicode,再转gbk,但不能直接从utf8转gbk 所以,python中就有两个方法用来解码(decode)与编码(encode),解码是子编码转unicode,编码就是unicode转子编码 1.编码 #encoding=utf-8

python encode和decode函数说明【转载】

python encode和decode函数说明 字符串编码常用类型:utf-8,gb2312,cp936,gbk等. python中,我们使用decode()和encode()来进行解码和编码 在python中,使用unicode类型作为编码的基础类型.即 decode              encode str ---------> unicode --------->str u = u'中文' #显示指定unicode类型对象u str = u.encode('gb2312') #以

Python 的 encode 和 decode

记一下,备忘. Python 使用unicode,所以无论encode还是decode都是针对unicode来说的. encode:把unicode转为其他编码(gbk.utf8.gb2312等). decode:把其他编码转为unicode码. 比如字符串a为gb2312,想转为utf8: a.decode(gb2312).encode(utf8)

Python—编码与解码(encode()和decode())

编码与解码 decode英文意思是解码,encode英文原意是编码. Python 里面的编码和解码也就是 unicode 和 str 这两种形式的相互转化.编码是 unicode -> str,解码是 str -> unicode. 字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码, 即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. decode的作用是将其他编码的字