Python学习----字符集编码

1 ASCII码: American Standard Code for information inerchange

美国最初采用的二进制和字符的编码映射表

2 Gb2312, Gbk1.0, Gbk10830

中国最开始制定的编码表Gb2312,只包含简体字,后发现繁体字没有加进去,不断扩充,而出现了Gbk系列编码

3 unicode, utf-8

由于世界各国都制定本国的编码表,导致各国之间信息交流出现障碍,遂ISO组织出面制定全球统一的编码表,即unicode码,又称万国码。

万国码虽然包括了世界各国所有的字符,但是每个字符都用两个字节表示,对于英语国家来说,造成了大量的空间浪费,为了节省成本,对万国码进行压缩,字母用1个字节表示,欧洲字符用两个字节表示,中国汉字用三个字节表示

4 进入中国的操作系统采用中国制定的Gb2312编码标准,而Unix和Linux皆采用的utf-8的编码标准

原文地址:https://www.cnblogs.com/tonytang271828/p/9498198.html

时间: 2024-10-05 05:31:33

Python学习----字符集编码的相关文章

python 学习笔记-----编码问题

1.python 最早支持的是ASCII编码. 所以对于普通的字符串"ABC"为ASCII编码的形式.字母和数字之间的转换函数为ord('字母')和chr(‘数字’)函数. ord(‘A’)  输出 65     chr(65)输出 ‘A’ 2.后来添加了Unicode编码: 形式:u‘...’     例如 u‘中文’   用print 输出则为:中文   直接输出为一串编码字符 3.Unicode和utf-8 之间的转换: a.Unicode转换为utf-8的形式:u‘...’.e

python与字符集编码

讲的比较明白的博客:http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 以上面博文的汉为例子,汉字的GBK编码是baba, UNICODE码字是6C49 UTF16-LE编码是496C,UTF-8编码是e6b189 python文件的编码制定为GBK line="汉" input=line.decode('gbk','ignore').encode("UTF-8"); rint repr(input

Python学习之——编码方式

1.各种编码方式 ASCII:http://zh.wikipedia.org/zh-hans/ASCII Unicode:http://zh.wikipedia.org/zh-hans/Unicode UTF-8:http://zh.wikipedia.org/zh/UTF-8 GBK:http://zh.wikipedia.org/zh/%E6%B1%89%E5%AD%97%E5%86%85%E7%A0%81%E6%89%A9%E5%B1%95%E8%A7%84%E8%8C%83 GB_231

python学习日常-编码与字符串格式化

python编码也是遵循计算机技术的编码的,英文编码还是遵循ascii码,中文编码遵循gb2312,都遵循的是utf-8编码. 值得注意的是几个函数,ord("a"),是查询a的utf-8编码.chr("778"),是通过utf-8编码查询对应的字符,len("str")是查询字符串占多少位字节的相当于c#的length.还有就是不论什么样的编码最终存入计算机的磁盘时,都是按照byte(字节)来存储的.中文一般占3个字节,英语字符占1个字节. 格

python学习:编码转换

1 #!/usr/bin/env python 2 #coding:utf-8 3 4 msg="我爱北京天安门" 5 6 print(msg.encode('utf-8')) 7 8 print((msg.encode('utf-8')).decode('utf-8'))

Python学习-字符编码的理解

Unicode编码和ASCII码两者都是机器能够理解的编码,你就是说出现一个码,计算机知道它对应哪种符号.因为这种编码形式将不同的字符全都和电平的高低电位联系在一起. Unicode,这种编码是全球通用的编码,就是说所有计算机都包含的编码.包含 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节),这三种形式. 也就是说utf-8,就是一种Unicode的编码. utf-16就是现在最常用的unicode版本, 不过在文件里存的还是utf-8,因为utf8省空间.

Python 学习之[编码]

全世界最早的编码是ASCII 最早只有 256个bit 8位 但是只用了128位 剩下一位补零.最早是美国人发明的 只支持英文 数字 和符号 一个字母是 8bit=1byte 随着计算机的世界普遍应用.各个国家创建了自己的编码系统如:中国的GB 后来衍生成GBK GBK是由GB衍生而来,由中国方正公司编码研制 65536个bit 16位  但是其数量远小于中国的汉字数量.每个字占16bit=2byte 最早的世界性编码是UNICODE 为了全世界研制的编码 有32位 2**32个空位,但是因为占

Python学习之编码

Python2默认解释器的编码:ascii: Python3默认解释器的编码:UTF-8 ascii码:只会识别英文字母.数字和标点.8位表示一个英文字符,1个字节 万国码Uicode:目前的所有语言文字,32位,4个字节 utf-8:压缩的万国码.16位,此编码中,3字节表示一个汉字 原文地址:https://www.cnblogs.com/fmfei/p/12074846.html

Python 3学习 ——Python 多进程与编码

Python 学习--Python 编码 写此博客 是为了激励自己,并且将自己的心得以及遇到的问题与人分享 一.进程 1.概述 multiprocessing 包是 Python 中的多进程管理包.与 thread.Threading 类似,可以利用 multiprocessing 对象来创建一个进程.该 Processing 对象与 Thread 对象的用法相同,也有 start() run() join() 的方法.具体使用看下面代码实现.使用这些 API 的时候有如下几点注意事项: 十分有