Python8_关于编码解码和utf-8

关于编码:
ASCII码是早期的编码规范,只能表示128个字符。7位二进制数表示

扩展ASCII码,由于ASCII码不够用,ASCII表扩充到256个符号,不同的国家有不同的标准;8位二进制数

Unicode 准确来说不是编码格式,而是字符集。这个字符集包含了世界上所有的符号
所有字符长度统一用16位表示,因此字符是定长的;

GB2312 在ASCII码表的基础上,小于127的字符意义与原来相同,而将大于127的字节连在一起,表示汉字
前一个字节从0xA1(161)到0xF7(247)共87个,称为高字节,后一个字节从0xA1(161)到0xFE(254)共94字节,称为低字节。
两者可组合处8000种组合。可以用来表示6763个简体汉字、数学符号、罗马字母,日文等;
127以下的称为半角字符,两个字节的编码称为全角字符;
简单而言,GB2312就是在ASCII基础上的简体汉字扩展;

GBK 是对GB2312的扩展,完全兼容GB2312,达到了21886个汉字和符号

GB18030 收录了70244个汉字和字符,更加全面,与GB2312-1980和GBK相兼容

UTF 有两个格式UTF-8 UTF-16,表示每次传输8个位还是16个位,UTF-8等编码体积比较大,占电脑空间多

======================================================

encode和decode:

编码(动词):按照某种规则(这个规则称为:编码(名词))将“文本”转换为“字节流”。而在python 3中则表示:unicode变成str

解码(动词):将“字节流”按照某种规则转换成“文本”。而在python3中则表示:str变成unicode

bytes主要是给计算机看的,string主要是给人看的
中间有个桥梁是编码规则,主要的趋势是utf8
bytes对象是二进制的,很容易转换成十六进制
string就是我们看到的内容,如‘abc‘

string经过编码encode,转换成二进制对象,给计算机识别,
bytes经过反编码decode,转化成string,给我们看。

python3中的str类型对象有点像Python2中的unicode
python3中的str是未编码的,str有一个encode方法,调用这个方法之后将产生一个编码后的byte类型字符串
byte类型字符串才支持decode。

str encode bytes
bytes decode str

记住python3中有两个类型:字符串类型(Unicode字符)、bytes类型

=======================================================

Python中编码、解码与Unicode的联系:
字符串在Python内部的表示是Unicode编码,因此,在做编码转换时,通常需要以Unicode作为中间编码,即先将其他编码的字符串解码(decode)成Unicode,再从Unicode编码(encode)成另一种编码。

在新版本的python3中,取消了unicode类型,代替它的是使用unicode字符的字符串类型(str),字符串类型(str)成为基础类型如下所示,而编码后的变为了字节类型(bytes)但是两个函数的使用方法不变:

decode                  encode
bytes ------> str(unicode)------>bytes

例子:
u = ‘中文‘ #指定字符串类型对象u
str = u.encode(‘gb2312‘) #以gb2312编码对u进行编码,获得bytes类型对象str
u1 = str.decode(‘gb2312‘)#以gb2312编码对字符串str进行解码,获得字符串类型对象u1
u2 = str.decode(‘utf-8‘)#如果以utf-8的编码对str进行解码得到的结果,将无法还原原来的字符串内容

文件读取问题:
假如我们读取一个文件,文件保存时,使用的编码格式,决定了我们从文件读取的内容的编码格式,例如,我们从记事本新建一个文本文件test.txt, 编辑内容,保存的时候注意,编码格式是可以选择的,例如我们可以选择gb2312,那么使用python读取文件内容,方式如下:

f = open(‘test.txt‘,‘r‘)
s = f.read() #读取文件内容,如果是不识别的encoding格式(识别的encoding类型跟使用的系统有关),这里将读取失败

‘‘‘假设文件保存时以gb2312编码保存‘‘‘
u = s.decode(‘gb2312‘) #以文件保存格式对内容进行解码,获得unicode字符串

‘‘‘下面我们就可以对内容进行各种编码的转换了‘‘‘
str = u.encode(‘utf-8‘)#转换为utf-8编码的字符串str
str1 = u.encode(‘gbk‘)#转换为gbk编码的字符串str1
str1 = u.encode(‘utf-16‘)#转换为utf-16编码的字符串str1

codecs进行文件的读取
python给我们提供了一个包codecs进行文件的读取,这个包中的open()函数可以指定编码的类型:

import codecs
f = codecs.open(‘text.text‘,‘r+‘,encoding=‘utf-8‘)  #必须事先知道文件的编码格式,这里文件编码是使用的utf-8
content = f.read()                                                #如果open时使用的encoding和文件本身的encoding不一致的话,那么这里将将会产生错误
f.write(‘你想要写入的信息‘)
f.close()
====================================================
在python2中,python2的默认编码是ASCII码,在做编码转换时,通常需要以unicode作为中间编码,所以在python2中先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码

通常使用如下

str.decode(‘utf-8‘).encode(‘utf-8‘)

但是在python3中, 字符串的默认编码就是unicode,所以不需要解码,直接就可以编码成另一种编码

通常使用如下

str.encode(‘utf-8‘)
总之,python3中,decode是将其他编码解码成unicode编码,encode是将unicode编码成其他编码

====================================================

原文地址:https://www.cnblogs.com/grooovvve/p/11160744.html

时间: 2024-11-05 18:42:19

Python8_关于编码解码和utf-8的相关文章

[C语言]Base64编码解码

Base64编码解码 一,Base64编码原理 Base64编码的字符数组如下所示 : ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/ 字符串转Base64编码:取3字节的字符串转换为四字节的字符串,依次往后转换.得到Base64编码字符串.具体原理如下: 1,如果需要编码的原串字节数刚好为3的倍数,那么转换规则如下: 以中文字符'严'为例,'严'字的UTF-8编码为:0xE4B8A5 = 11100100  10

服务器端获取表单数据的编码解码问题(servlet)

首先需要明确指出的是,这里的服务器是指tomcat. 在页面没有明确指定编码的情况下,客户端通过input标签和字符串向服务器传递两个值param1和param2.如果直接使用request.getParameter()方法来获取值的话,得到的肯定都是乱码,我们需要对其重新进行编码解码,就像下面的代码所示的那样: new String(req.getParameter("param1").getBytes("iso-8859-1"), "gbk"

百度移动版的url编码解码代码

1 var decode = function(m) { 2 try { 3 m = decodeURIComponent(m); 4 } catch(e) {} 5 var s = m.split("%"); 6 if (s.length > 1) { 7 s.shift(); 8 for(var i = 0; i < s.length; i++) { 9 var t = s[i]; 10 t = parseInt(t, 16); 11 t = t + 256; 12 t

Atitit.&#160;二进制数据ascii表示法,与base64编码解码api&#160;设计标准化总结java&#160;php&#160;c#.net

Atitit. 二进制数据ascii表示法,与base64编码解码api 设计标准化总结java php c#.net 1. Base64编码,1 1.1. 子模式 urlsafe Or  url unsafe2 1.2. 其他的二进制数据表示法  bin2hex() ,Quoted-printable ,UUencode2 2. Base64常用api2 2.1. ------------解码api2 2.2. decode(String s, OutputStream out)2 2.3. 

使用多字节字符集的跨平台(PC、Android、IOS、WP)编码/解码方法

随着移动端的发展,跨平台已成为通讯架构设计的重要考虑因素,PC.Android.IOS.WP等跨多平台间的数据通讯,必然要解决字符编码/解码的问题. 多字节字符集MBCS不是跨平台的首选字符集,面向跨平台.国际化的推荐字符集肯定是UNICODE. 写VC的人都知道,在以前VC++6.0中默认的字符集是多字节字符集,而VS2005及以后默认的字符集是Unicode,VS2013中默认不再对多字节字符串进行支持. 但对很多较早的服务端项目,依然使用的是多字节字符集,不过使用多字节字符集依然可以实现跨

常见编码解码脚本

在平时我们会遇到各种各样的编码,在这里,我总结了一些常见的编码,并不是很全 尝试着做了个编码解码的汇总,并且写了个脚本出来,由于python功底不是很强,所以可能会有不到之处,还望各位多多指正 附上脚本: 1 #-*-coding:utf-8-*- 2 #author:hell0_w 3 #本人博客:http://hell0w.cnblogs.com/ 4 5 import base64 6 import bubblepy 7 import urllib 8 import quopri 9 im

网络编程 -- RPC实现原理 -- Netty -- 迭代版本V3 -- 编码解码

网络编程 -- RPC实现原理 -- 目录 啦啦啦 V2--Netty -- pipeline.addLast(io.netty.handler.codec.MessageToMessageCodec<INBOUND_IN, OUTBOUND_IN>) 覆写编码解码方法. pipeline相当于拦截器.在pipeline中添加MessageToMessageCodec接口的实现类,该接口的实现类中的encode()方法自动将发送的Object对象转换为ByteBuf,decode()方法自动将

JavaEE细节问题03——关于服务器和浏览器的编码解码

Request--对于接受请求: 获取请求中的编码解码问题 : 对于post请求,浏览器会根据当前页面的编码来对字符进行编码, 所以我们 直接采用:  request.setCharacterEncoding("UTF-8"); 对于get请求,浏览器自动对字符进行iso-8859-1编码 所以我们拿到以后就要对其进行iso-8859-1解码,使其成为原本的字节数组,然后再进行utf-8编码          Enumeration<String> enums = requ

自定义协议的编码解码

2015.4.1 wqchen. 转载请注明出处 http://www.cnblogs.com/wqchen/p/4385798.html 本文介绍的是一个自定义协议的编码解码工具的实现. 游戏开发中,前端后端协议一般都会协商定制通信协议的格式,统一格式后用程序脚本对应前端和后端的编程语言,分别生成一份协议的编码和解码方案,便于协议的一致性. 这样的工具有很多,比较出名的是google的protobuf,它可以支持很多种编程语言.我也曾试用过protobuf,看过一点它的实现,protobuf完