Python decode与encode

字符串在Python内部的表示是unicode编码(8-bit string)，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode(‘gb2312‘)，表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode(‘gb2312‘)，表示将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码.

如：s=‘中文‘

如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。

如果字符串是这样定义：s=u‘中文‘

则该字符串的编码就被指定为unicode了，即Python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。

获得当前环境默认编码

>>> import sys
>>> print sys.getdefaultencoding()
ascii

修改当前编码

>>> isinstance(s,unicode)
False
>>> sys.setdefaultencoding("gbk")
>>> unicode(s)
u‘\u4e2d\u6587‘
>>> s.decode()
u‘\u4e2d\u6587‘

时间： 2024-10-13 04:45:49

Python decode与encode的相关文章

python decode unicode encode

字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. 代码中字符串的默认编码与代码文件本身的编码一致,以下是不一致的两种: 1. s = u'你好' 该字符串的编码就被指定为unicode了,即python的内部编码,而与代码文件本身的编码(查看默认编码:import sys print('hello',sys.getde

关于python decode()和 encode()

1.先收集一下这几天看到的关于decode()解码和encode()编码的用法 bytes和str是字节包和字符串,python3中会区分bytes和str,不会混用这两个.字符串可以编码成字节包,而字节包可以解码成字符串. 如下非法!是字符串,编码成字节包,可以看到b'这种标识. 我们并不关心它们内部是怎么表示的,字符串里的每个字符要用几个字节保存.只有在将字符串编码成字节包(例如,为了在信道上发送它们)或从字节包解码字符串(反向操作)时,我们才会开始关注这点. 如果读出网页的内容是字节形式

Python 字符串的encode与decode

python的str,unicode对象的encode和decode方法 python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]. 而python中的unicode对象应该才是等同于java中的String对象,或本质上是java的char[]. 对于 s="你好" u=u"你好" 1. s.decode方法和u.encode方法是最常用的, 简单说来就是,python内部表示字符串用un

Python字符串的encode与decode研究心得乱码问题解决方法

以下摘自:http://www.jb51.net/article/17560.htm 为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式? 为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题. 字符串在Python内部的表示

Python字符串的encode与decode研究心得——解决乱码问题

转~Python字符串的encode与decode研究心得——解决乱码问题为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“/xe4/xb8/xad/xe6/x96/x87”的形式?为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题. 字符串在Python内部的表示是unico

关于Python字符编码encode和decode

(注:本文部分内容摘自互联网,由于作者水平有限,不足之处,还望留言指正.) 记得几天前,部门的一个小姑娘问我,怎么她Python打印出来的中文信息都乱码了?我走过去,略思一二,瞬间给她搞定,其实这是字符编码转换的问题.这时,我注意到小姑娘流露出一丝丝崇拜的眼神.所以我想,如果你连编码问题都搞不定,还怎么泡妞啊.可能一部分人也会进入这种误区,我以我小学生的水平,把我的理解结合网上的资料写下来. 注意:Python3默认编码是unicode:而Python2是ASCII码.Windows环境默认是g

Python字符串的encode与decode研究心得乱码问题解决方法

为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成"\xe4\xb8\xad\xe6\x96\x87"的形式? 例如下面这个实际生活中我自己遇到的这段代码: #-*-utf-8-*- txt = "今天,天气很好!风和日丽.感情丰富?" print(re.split('[,.!?]',txt)) 为什么会报错"UnicodeEncodeError: 'ascii' codec can't encode ch

python 字符串编码 str和unicode 区别以及相互转化 decode('utf-8') encode('utf-8')

python 字符串编码 str和unicode 区别以及相互转化 decode('utf-8') encode('utf-8') 原文地址:https://www.cnblogs.com/zhaoyingjie/p/9133020.html

【Python】关于decode和encode

#-*-coding:utf-8 import sys ''' *首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码, 即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码. encode的作

猜你喜欢

Adding New Functions to MySQL(User-Defined Function Interface UDF、Native Function)

catalog 1. How to Add New Functions to MySQL 2. Features of the User-Defined Function Interface 3. U ...

【html3】新特征之增强表单

一.input元素及属性 input元素的属性 type属性:指定输入内容的类型,默认为text:单行文本框 name属性:输入内容的识别名称,传递参数时候的参数名称 value属性:默认值 maxl ...

Huffman Algorithm (ii) 计算字符权重

/* *========================================================== * Filename : cw.cpp * Description : * ...

从无人超市被大妈占领看，互联网思维如何被现实击败

从"朝阳大妈"凭借一身正气揭露N多负面事件,到洛阳大妈和少年争夺篮球场去跳广场舞,再到很多其他大大小小的事儿--别看大妈年纪大,却一直是走在风口浪尖上的最新潮群体.而就在近日,大妈 ...

CSS3 转换(Transform)

转换 transform 能够对元素进行移动.缩放.转动.拉长或拉伸在CSS中,允许元素实现 2D 和 3D的转换效果,主要包含 :旋转,缩放,移动,倾斜 2D :元素只能在X轴和Y轴平面上发生变化 ...

减少鼠标依赖之快捷键

(一)Win键win + e:打开资源管理器.win + d:显示桌面,再按一次恢复窗口.win + r:运行对话框,这个运行如果用的好,基本上你就可以告别鼠标:1.在运行对话框中输入cmd,进入命令 ...

Jfreechart 乱码

整个图标分成三部分chart title,chart 的plot还有chart的 legend三个部分需要对他们分别设置字体就对了. 先看解决方法( 把这几个全部设置了,都搞定了就可以了): ...

Spring Data Redis 的坑

用 Spring data redis 的redisTemplate存储数据的时候发现,它的键值前多出现了字符串:\xac\xed\x00\x05t\x00\x03 如本来key=name,会变成&q ...

videojs使用的常见问题

1.报错The play() request was interrupted by a new load request 我在动态更换video的url时会报这个错.修改一下原来的代码如下,就正常了 ...

aedfsfsghtyjytuiyjkh

http://pp.163.com/forum/359001/subject/4364770/ http://pp.163.com/forum/359001/subject/4365134/ http ...

IFRAM随内部长宽高变化

<iframe src="" id="iframe_CustomerVisitRecord" width="700" height=& ...

anchor与position的区别

postion:指的是子node在父node中的位置 anchor:指的是本node的中的相对点. 注:position必须与anchor合起来使用才能真正确定node的显示位置.因为postion作 ...

找水王2

设计思路: 如果每次删除四个不同的ID,那么,在剩下的ID列表中,原先发帖比例大于1/4的ID所占比例仍然大于1/4,可以通过不断重复这个过程,把ID列表中的ID总数降低(转化为更小的问题),从而得到 ...

车牌识别--倾斜矫正

在车牌识别系统中, 车牌字符能够正确分割的前提是车牌图像能够水平,以至于水平投影和垂直投影能够正常进行.如果车牌倾斜没有矫正,那么水平投影和垂直投影,甚至铆钉都无法正常处理.所以,当车辆信息中获取车牌 ...

SAP_清除默认Action

Issue:用户有时将一些Action设为Default ASK 或 Deny 或 Allow,导致下次此弹窗就不会出现了. Solution: 进入SAP GUi设置将所有的Action 改为As ...

时钟初始化

1.时钟体系的了解所用晶振:12M PLL的个数:APLL.MPLL.EPLL 产生的时钟及其用途: 时钟应用场合应用举例所属PLL ACLK 处理器 arm11 APLL HCLK AHB总 ...

基于Entity FrameWork实现存储过程分页并返回总数

很多项目都会用到分页这个功能.网上也有很多这方面的资料,包括存储过程也是.但是基于EF来存储过程并返回总条数或者总页数的资料就没那么齐全了,至少我找了很久也没有找到.没有办法,项目有需求,那就自己一点 ...

安装Microsoft Windows XP选项是灰色的解决方法。

解决方法: 将XP ISO文件解压到当前目录下,运行DOS进入到I386目录下,在DOS命令行下运行:winnt32.exe /syspart:c,就可以正常安装了.

数学模板

把常用的数学模板放这里免得忘了素数表 1 int prime[maxn]; 2 void prime() 3 { 4 int i, j; 5 memset(prime, 1, sizeof(prim ...

linux alternatives命令详解

alternatives是Linux下的一个功能强大的命令.只能在root权限下执行.如系统中有几个命令功能十分类似,却又不能随意删除,那么可以用 alternatives 来指定一个全局的设置. a ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.