对字符编码的理解

1.含义

  关于人类文明中的语言符号与计算机所认识的0和1之间的一个对应关系表。字符-------通过翻译----------计算机认识的数字。这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码。同一编码规范的不同版本间具有向下兼容性。

2.发展历史

(1)阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII
ASCII:一个Bytes代表一个字符(英文字符/键盘上的所有其他字符),1Bytes=8bit,8bit可以表示0-2**8-1种变化,即可以表示256个字符

ASCII最初只用了后七位,127个数字,已经完全能够代表键盘上所有的字符了(英文字符/键盘的所有其他字符),后来为了将拉丁文也编码进了ASCII表,将最高位也占用了。

(2)阶段二:为了满足中文和英文,中国人定制了GBK。GBK:2Bytes代表一个中文字符,1Bytes表示一个英文字符 为了满足其他国家,各个国家纷纷定制了自己的编码 日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里。

(3)阶段三:各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。如何解决这个问题呢???
说白了乱码问题的本质就是不统一,如果我们能统一全世界,规定全世界只能使用一种文字符号,然后统一使用一种编码,那么乱码问题将不复存在,
ps:就像当年秦始皇统一中国一样,书同文车同轨,所有的麻烦事全部解决
很明显,上述的假设是不可能成立的。很多地方或老的系统、应用软件仍会采用各种各样的编码,这是历史遗留问题。于是我们必须找出一种解决方案或者说编码方案,需要同时满足:
#1、能够兼容万国字符
#2、与全世界所有的字符编码都有映射关系,这样就可以转换成任意国家的字符编码

这就是unicode(定长), 统一用2Bytes代表一个字符, 虽然2**16-1=65535,但unicode却可以存放100w+个字符,因为unicode存放了与其他编码的映射关系,准确地说unicode并不是一种严格意义上的字符编码表,下载pdf来查看unicode的详情:
链接:https://pan.baidu.com/s/1dEV3RYp

很明显对于通篇都是英文的文本来说,unicode的式无疑是多了一倍的存储空间(二进制最终都是以电或者磁的方式存储到存储介质中的)

于是产生了UTF-8(可变长,全称Unicode Transformation Format),对英文字符只用1Bytes表示,对中文字符用3Bytes,对其他生僻字用更多的Bytes去存

#总结:内存中统一采用unicode,浪费空间来换取可以转换成任意编码(不乱码),硬盘可以采用各种编码,如utf-8,保证存放于硬盘或者基于网络传输的数据量很小,提高传输效率与稳定性。

3.涉及到字符编码的场景

(1)一个python文件中的内容是由一堆字符串组成的,存取均涉及到编码问题;

(2)python中的数据类型字符串是由一串字符组成的;

4.出现乱码的2种情况

2个概念:文件从内存刷到硬盘叫做存文件:文件从硬盘读到内存叫做读文件

(1)存文件时就已经乱码:存文件时,由于文件内有各个国家的文字,我们单以某一编码格式去存,会存失败而编辑器不会报错,于是打开的时候就会看到乱码

(2)读文件时乱码:存文件时用的是utf-8编码,可以兼容万国,不会乱码,而读文件时选择了错误的解码方式,比如gbk,则在读阶段发生乱码,读阶段发生乱码是可以解决的,选对正确的解码方式就ok了。

5.保证不乱码的方法:用什么格式编码的就就用什么格式解码,一定不会乱码。内存中永远是unicode码。

6.字符编码在文本编辑器中的应用

7.字符编码在python中的应用

(1)执行python程序的三个阶段:

第一阶段:启动python解释器

第二阶段:将test.py脚本从硬盘读到内存,此时python解释器就相当于一个文本编辑器,打开test.py文件;此时,python解释器会读取test.py的第一行内容,#coding:utf-8,来决定以什么编码格式来读入内存,这一行就是来设定python解释器这个软件的编码使用的编码格式这个编码。可以用sys.getdefaultencoding()查看,如果不在python文件指定头信息#-*-coding:utf-8-*-,那就使用默认的 python2中默认使用ascii,python3中默认使用utf-8。

第三阶段:读取已经加载到内存中的代码(unicode模式),然后执行过程中可能会开辟新的内存空间,比如x="alex"。请理解好这句话:内存的编码使用unicode,不代表内存中全都是unicode(在程序执行之前,内存中确实都是unicode,比如从文件中读取了一行x="egon",其中的x,等号,引号,地位都一样,都是普通字符而已,都是以unicode的格式存放于内存中的。但是程序在执行过程中,会申请内存(与程序代码所存在的内存是俩个空间)用来存放python的数据类型的值,而python的字符串类型又涉及到了字符的概念。比如x="egon",会被python解释器识别为字符串,会申请内存空间来存放字符串类型的值,至于该字符串类型的值被识别成何种编码存放,这就与python解释器的有关了,而python2与python3的字符串类型又有所不同。python3中“egon"是以unicode码暂存于内存,而python2中是以bytes暂存于内存中的。即python2中,str=bytes,unicode=unicode;  python3中,str=unicode,bytes=bytes)。

8.python2与python3字符串类型区别

(1)python2中有2种类型:str 和 unicode

str类型

当python解释器执行到产生字符串的代码时(例如x=‘上‘),会申请新的内存地址,然后将‘上‘编码成文件开头指定的编码格式

要想看x在内存中的真实格式,可以将其放入列表中再打印,而不要直接打印,因为直接print()会自动转换编码,python解释器这样帮我们做的,易于初学者能看懂,见下面的细说。

#coding:gbk
x=‘上‘
y=‘下‘
print([x,y]) #[‘\xc9\xcf‘, ‘\xcf\xc2‘]
#\x代表16进制,此处是c9cf总共4位16进制数,一个16进制四4个比特位,4个16进制数则是16个比特位,即2个Bytes,这就证明了按照gbk编码中文用2Bytes
print(type(x),type(y)) #(<type ‘str‘>, <type ‘str‘>)

unicode类型

当python解释器执行到产生字符串的代码时(例如s=u‘林‘),会申请新的内存地址,然后将‘林‘以unicode的格式存放到新的内存空间中,所以s只能encode,不能decode

#coding:gbk
x=u‘上‘ #等同于 x=‘上‘.decode(‘gbk‘)
y=u‘下‘ #等同于 y=‘下‘.decode(‘gbk‘)
print([x,y]) #[u‘\u4e0a‘, u‘\u4e0b‘]   注意这一行
print(type(x),type(y)) #(<type ‘unicode‘>, <type ‘unicode‘>)

打印到终端(细说)

对于print需要特别说明的是:

当程序执行时,比如

x=‘上‘ #gbk下,字符串存放为\xc9\xcf

print(x) #这一步是将x指向的那块新的内存空间(非代码所在的内存空间)中的内存,打印到终端,按理说应该是存的什么就打印什么,但打印\xc9\xcf,对一些不熟知python编码的程序员,立马就懵逼了,所以龟叔自作主张,在print(x)时,使用终端的编码格式,将内存中的\xc9\xcf转成字符显示,此时就需要终端编码必须为gbk,否则无法正常显示原内容。

(2)在python3 中也有两种字符串类型str和bytes

str是unicode

#coding:gbk
x=‘上‘ #当程序执行时,无需加u,‘上‘也会被以unicode形式保存新的内存空间中,

print(type(x)) #<class ‘str‘>

#x可以直接encode成任意编码格式
print(x.encode(‘gbk‘)) #b‘\xc9\xcf‘
print(type(x.encode(‘gbk‘))) #<class ‘bytes‘>

很重要的一点是:看到python3中x.encode(‘gbk‘) 的结果\xc9\xcf正是python2中的str类型的值,而在python3是bytes类型,在python2中则是str类型

于是我有一个大胆的推测:python2中的str类型就是python3的bytes类型,于是我查看python2的str()源码,发现

				
时间: 2024-08-10 23:26:28

对字符编码的理解的相关文章

Python学习-字符编码的理解

Unicode编码和ASCII码两者都是机器能够理解的编码,你就是说出现一个码,计算机知道它对应哪种符号.因为这种编码形式将不同的字符全都和电平的高低电位联系在一起. Unicode,这种编码是全球通用的编码,就是说所有计算机都包含的编码.包含 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节),这三种形式. 也就是说utf-8,就是一种Unicode的编码. utf-16就是现在最常用的unicode版本, 不过在文件里存的还是utf-8,因为utf8省空间.

oracle字符编码的理解

原文链接:http://blog.csdn.net/dbanote/article/details/9158367 一.查询服务端字符集 select userenv('language') from dual; USERENV('LANGUAGE') ---------------------------------------------------- SIMPLIFIED CHINESE_CHINA.ZHS16GBK 二. 客户端NLS_LANG参数(即sqlplus的参数)该参数用于向O

我对字符集和字符编码的理解

先定义两个概念. 字符集 字符集就是把字符和一串数字(码点)一一对应起来.GB2312,GBK,UNICODE,这些都是字符集. 字符编码 字符编码就是取得字符集中和字符对应的那串数字(字符编码)之后,基于取得的那串数字再生成另外一串数字.utf8,utf16,utf32这些都是字符编码. 字符集和字符编码的关系 我们可以把字符集看作一个函数,F(字符)=string1 我们也可以把字符编码看作另外一个函数,G(F(字符))=string2 string1即可以等于string2,也可以不等.

字符编码详解——彻底理解掌握编码知识,“乱码”不复存在

每一个程序员都不可避免的遇到字符编码的问题,特别是做Web开发的程序员,"乱码问题"一直是让人头疼的问题,也许您已经很少遇到"乱码"问题,然而,对解决乱码的方法的内在原理,您是否明白?本人作为一个程序员,在字符编码方面同样遇到不少问题,而且一直对各种编码懵懵懂懂.不清不楚:在工作中也曾经遇到一个很烦人的编码问题.这两天在网上收集了大量编码方面的资料,对字符编码算是理解的比较清楚了.下面把我认为比较重要的知识点记录下来,一方面方便以后复习:另一方面也希望给跟我一样懵懵

字符集和字符编码

1. 概述 现在的编程语言对字符串的处理一般封装比较好,所以平时编写代码,很少要自己考虑字符编码问题.以前学习xml时,由于xml的存储涉及到编码格式,查过一些资料,知道一些概念,GB2312.Unicode.Utf-8.Utf-16.UCS-2等,但这些概念之间什么关系,仍然一知半解.最近要做国际化,需要把不支持Unicode的程序升级为Unicode,借着这个机会,把其中的知识梳理了一遍,对字符编码的理解算更系统化了,在此总结一下. 2. 字符集和字符编码 首先明确两个概念,"字符集&quo

字符编码详解

每一个程序员都不可避免的遇到字符编码的问题,特别是做Web开发的程序员,“乱码问题”一直是让人头疼的问题,也许您已经很少遇到“乱码”问题,然而,对解决乱码的方法的内在原理,您是否明白?本人作为一个程序员,在字符编码方面同样遇到不少问题,而且一直对各种编码懵懵懂懂.不清不楚:在工作中也曾经遇到一个很烦人的编码问题.这两天在网上收集了大量编码方面的资料,对字符编码算是理解的比较清楚了.下面把我认为比较重要的知识点记录下来,一方面方便以后复习:另一方面也希望给跟我一样懵懵懂懂的人一个参考.不对或不妥之

字符在内存中最终的表示形式是什么?是某种字符编码还是码位(Code Point)?

字符在内存中最终的表示形式是什么?是某种字符编码还是码位(Code Point)? 根据我的了解,编码中有三个核心概念:1. 字符集(Character Set),可以说是一个抽象概念,字符的合集2. 码位(Code Point),将抽象的字符集中每一个字符映射到一个整数3. 字符编码(Encoding),按照某种编码规则用二进制来表示一个字符 我对码位这个概念理解的不是很清楚,Code point中说: The notion of a code point is used for abstra

Python-3 文件和字符编码

文件 打开文件模式 ''' "r"只读模式(默认). w,只写模式,不可读,不存在则创建:存在则删除内容 a,追加模式,可读,不存在则创建:存在则只追加内容 x, 写模式,当文件系统上不存在,才可以写.也就是不允许覆盖已存在的文件内容 "+"表示可以同时读写某个文件: r+,可读写文件.可读:可写:可追加 w+,写读 a+,同a "U"表示在读取时,可以将 \r \n \r\n自动转换成\n(与r或r+ 模式同使用): rU r+U "

【字符编码】彻底理解字符编码

一.前言 在解决昨天的问题时,又引出了很多新的问题,如为什么要进行编码,这些编码的关系如何,如ASCII,IOS-8859-1,GB2312,GBK,Unicode之间的关系,笔者想要彻底理解字符编码背后的故事,遂进行了探索,具体笔记如下.如园友能读完本篇文章,我相信会解开很多疑惑. 二.字符编码 2.1 为何需要编码? 我们知道,所有的信息最终都表示为一个二进制的字符串,每一个二进制位(bit)有0和1两种状态.当我们需要把字符'A'存入计算机时,应该对应哪种状态呢,存储时,我们可以将字符'A