python解码编码要点

理解要点：一个标准抽象与具体实现，两个编码一致

编码规范标准如unicode，编码具体实现:如utf8（记住要点，便于理解）
正确输出、显示的内容采用的编码与系统本地编码实际类型要一致

程序文件内或ide声明的字符编码有时与实际编码有区别
python对win本地码一律采用mbcs（程序文件强烈建议统一采用unicode实现）
本地编码字符集可能不包括特定字符

要正确的解码decode的字符串本身编码要与解码指定的编码实际类型要一致

使用要点：三个u

程序中生成中文文件名：u‘中文文件名‘
文件、IDE编码最好统一采用utf8
数据库中文最好unicode

eg：

>>>print ‘严‘.decode(‘utf8‘).encode(‘gbk‘)
严
>>>print u‘严‘.encode(‘gbk‘)
严

时间： 2024-08-10 02:10:48

python解码编码要点的相关文章

Python解码编码问题

一.先说说编解码问题编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. Eg: 1 2 str1.decode('gb2312') #将gb2312编码的字符串转换成unicode编码 str2.encode('gb2312') #将unicode编码的字符串转换成gb2312编码 python2.7 idle GUI界面打印中文会出现乱码,这是idle本身问题: c

python的编码与解码

######################### # Python中的字符类型 # ######################### # Python中的字符类型分两种: # 1. str类型:ascii表中的字符,占一个字节,所以也叫字节字符.字面量用双引号表示. # 2. unicode类型:一个字符串占用的字节数由保存时采用的编码格式相关.字面量用带"u"前缀的双引号表示. s = 'OK, ' u = u'我, ' u1 = u'我' u2 = u'爱Python' pri

python字符编码与解码 unicode，str

字符编码计算机中的字符都是以特定的编码形式存放的,从最早的ascii到后来的Unicode以及UTF-8, 在python中, 字符串str也是是区分编码的,在各种编码的字符串之间,有一座桥梁,就是unicode类型. str, unicode str转到unicode需要解码,即decode:反之,unicode转到str需要编码,即encode: str -- (decode) --> unicode unicode -- (encode)

【转】Python字符编码详解

1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Information Interchange),是一种单字节的编码.计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号.不过ASCII只用到了其中的一半(\x80以下),这也是MBCS得以实现的基础. 1.2. MBCS 然而计算机世界里很快就有了其他语言,单字节的ASCII已无法满足需求.后来每个语言就制定了一套自己的编码,由于单字节

19.python的编码问题

在正式说明之前,先给大家一个参考资料:戳这里文章的内容参考了这篇资料,并加以总结,为了避免我总结的不够完善,或者说出现什么错误的地方,有疑问的地方大家可以看看上面那篇文章. 下面开始讲python中的编码问题,首先,我们看看编码有哪些. 1. ASCII ASCII是用一个字节表示字符,而一个字节由八位二进制组成,所以能产生2**8=256种变化,在计算机刚诞生的年代,用来表示大小写的26个英文字母,外加一些符号之类的还是绰绰有余的.这也是python2.x中默认使用的编码,所以在python

深入python字符编码

UnicodeEncodeError.UnicodeDecodeError 错误字符字符一个信息单位,它是各种文字和符号的统称,比如一个英文字母是一个字符,一个汉字是一个字符,一个标点符号也是一个字符. 字节字节(Byte)是计算机中存储数据的单元,一个字节等于一个8位的比特,计算机中的所有数据,不论是磁盘文件上的还是网络上传输的数据(文字.图片.视频.音频文件)都是由字节组成的. 字符编码字符编码(Character Encoding)是将字符集中的字符码映射为字节流的一种具体实现方案

python 字符编码处理问题总结彻底击碎乱码！

Python中经常遇到这样的字符编码问题,尤其在处理网页源码时(特别是爬虫中): UnicodeDecodeError: 'XXX' codec can't decode bytes in position 12-15: illegal multibyte... 下面以汉字'哈'来解释作示例解释所有的问题,汉字"哈"的各种编码如下: 1 UNICODE(UTF8-16): 0xC854 2 UTF-8: 0xE59388 3 GBK: 0xB9FE 除此之外还有如gb2312,

Python字符编码详解(转)

Python字符编码与函数基本使用-day3

解决Python2和Python3中字符编码的问题补充Python2中文件操作的说明函数使用基础函数的类型一.Python2中的字符存在的解码编码问题如果是现在正在用Python2的人应该都知道存在字符编码问题,就举一个最简单的例子吧:Python2是无法在命令行直接打印中文的,当然他也是不会报错的,顶多是一堆你看不懂的乱码.如果想在直接显示中文,我们是可以在Python2文件头部申明字符编码的格式.如下图这里 #-*-coding:utf-8 -*- 是用来申明下面的代码是用