python版本与编码的区别

主要编码介绍

python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill)

ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256,所以,ASCII码最多只能表示 256 个符号。

显然ASCII码无法将世界上的各种文字和符号全部表示,所以,就需要新出一种可以代表所有字符和符号的编码,即:Unicode

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,规定虽有的字符和符号最少由 16 位来表示(2个字节),即:2 **16 = 65536,
注:此处说的的是最少2个字节,可能更多

UTF-8,是对Unicode编码的压缩和优化,他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存...

GBK,也是对Unicode编码的压缩和优化,全称为汉字内码拓展规范,使用了双字节编码方案,由中国信息技术标准化委员会制订。

所以,python2解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill),如果是如下代码的话:

报错:ascii码无法表示中文

1 #!/usr/bin/env python
2
3 print "你好,世界"

改正:应该显示的告诉python解释器,用什么编码来执行源代码,即:

1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-
3
4 print "你好,世界"

而在python3中,改为使用默认ut-8进行编码,所以在python3中不加# -*- coding: utf-8 -*-也不会出现乱码。

编码之间的转化

在python2.7中

如果想将UTF-8转化为GBK编码,那么先要解码成unicode,然后再编码成GBK编码,即:

1 temp =  "李程"
2 # 解码 需要指定原来是什么编码
3 temp_unicode = temp.decode("utf-8‘)
4 # 编码 需要指定要编成什么编码
5 temp_gbk = temp_unicode.encode("gbk")

而在python3中

移除了unicode类型的编码,系统自动帮你完成内部一系列的转换,你只需要一步进行编码即可:

1 temp = "李程"
2 # 自动进行转化
3 temp_gbk = temp.encode("gbk")

Tips:

window终端默认采用的编码格式是GBK,所以UTF-8编码的代码在终端显示会乱码,但是window可以自动将unicode编码的代码转化成自己想要的编码格式,所以在window上你只需要将其他类型的编码转化成unicode即可。

时间: 2024-10-25 21:11:16

python版本与编码的区别的相关文章

PYTHON 之 字符编码的区别与介绍

理解字符编码的历史与使用原因 1.计算机只能认0与1.2.通过0与1,二进制数,计算机能很容易识别出各种数字.3.为了能让计算机识别各种字符,美国人制定了ASCII码,能识别出127种字母与特殊字符,只需使用一个字节.3.因为ASCII码不支持中文,在1980设计出gb2312 ,收录了7445个汉字.4.到了1995年 设计出BGK1.0 收录了2万多个汉字.5.到了2000年,设置出GB18030 收录了2万7千多个汉字.6.到了不个不知道什么年份的时候,国际组织为了统一全世界的字符,设置出

python之is 和 == 的区别//编码和解码

一.is  和  ==  的区别: ==   比较    #比较两边的值 is    比较   #比较的是内存地址 id()是python的一个内置函数,通过id()我们可以查到一个变量表的值在内存中的地址 (只限于数字和字符串是True) #数字小数据池 :    -5~256 1.字符串中如果有特殊字符,那么不会添加到小数池中,他们的内存地址就不一样 字符串中单个*20以内他们的内存一样,超过20个就不会添加到小数据池;单个*以上内存地址就不一样 注意:pycharm是个坑,一个py文件中所

第六节,初识python和字符编码

程序语言的发展 机器语言 程序语言,最初的计算机语言是机器语言,完全是0和1组成的二进制串  如:01010101 11010101 汇编语言 因为01010101的字符串,冗长,不利于维护,所以产生了带助记符的汇编语言 举例:fua = 01010101    fub = 11010101 c语言 在汇编的基础上开发了c语言 有了常量,变量,字符串,等运算规则 java.c#.php.python 在c语言的基础长有发展了java.c#.php.python 等各种语言 这些语言都需要安装运行

python字符串和编码

字符编码 字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. 由于计算机是美国人发明的,因此,最早只有127个字母被编码

windows安装使用python、环境设置、多python版本的切换、pyserial与多版本python安装、windows命令行下切换目录

1.windows下安装python 官网下载安装即可 2.安装后的环境设置 我的电脑--属性--高级--设置path的地方添加python安装目录,如C:\Python27;C:\Python33 3.多版本的切换三种方法: 1)修改C:\Python27;C:\Python33内python.exe为python2.7.exe.python3.3.exe,即可区别开来 2)path路径中去除不用的,保留要用的 3)切换到想使用版本的python.exe目录下使用python解释器 4.下载好

浅谈Python中的编码规则

注:本人用Python3.4作为学习版本,以下学习心得只适用于Python3.4. 之前拜读了金角大王Alex关于编码的解答,收获颇多.特此致谢,以下仅谈一谈作为一个初学者,对编码的理解. 我所了解的编码,大致分为两类:第一类是支持中文的编码集:第二类是支持英文的编码集.至于别国的编码集,暂且不做讨论. 常见编码:ASCII:Unicode:UTF-8:big5,:GB2312:GBK:GB18030 接下来,我对以上编码进行分类: 只支持英文和特殊字符的编码:ASCII ASCII是基于拉丁字

PHP 页面编码声明与用header或meta实现PHP页面编码的区别

php的header来定义一个php页面为utf编码或GBK编码 php页面为utf编码 header("Content-type: text/html; charset=utf-8"); php页面为gbk编码 header("Content-type: text/html; charset=gb2312"); php页面为big5编码 header("Content-type: text/html; charset=big5"); 通常情况以

Python常见字符编码间的转换

学习Python,字符编码间的转换是绕不过去的一只拦路虎,不把编码彻底搞明白,总有一天它会猝不及防坑你一把. Python2.x和Python3.x在字符编码的设置上也有很大区别(Python3未来将是主流,所以Python3为主),今天我们就来一起学习下. 上一篇文章里我已经简述了Python的常见编码了,这里就不再赘述了,还不清楚的小伙伴可以先去看下:     http://www.cnblogs.com/schut/p/8406897.html 一.Unicode 和 UTF-8的纠葛 U

Python2和3字符编码的区别

Python2和3字符编码的区别 一.字符编码应用之Pyhton 1.1执行Python程序的三个阶段 test.py文件内容以gbk格式保存的,内容为: 阶段一:启动Python解释器 阶段二:Python解释器此时就是一个文本编辑器,负责打开文件test.py,即从硬盘中读取test.py的内容到内存中 此时,Python解释器会读取test.py的第一行内容,#coding:utf-8或#-*-coding:utf-8-*-,以此决定以什么编码格式将代码读入内存,这一行就是设定Python