Python学习-字符编码的理解

Unicode编码和ASCII码两者都是机器能够理解的编码,你就是说出现一个码,计算机知道它对应哪种符号。因为这种编码形式将不同的字符全都和电平的高低电位联系在一起。

Unicode,这种编码是全球通用的编码,就是说所有计算机都包含的编码。包含 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节),这三种形式。

也就是说utf-8,就是一种Unicode的编码。

utf-16就是现在最常用的unicode版本, 不过在文件里存的还是utf-8,因为utf8省空间。

GBK编码就是另一种编码的形式。这是包含中文汉字的一种早期编码形式,但是,没有包含所有的汉字。并且和Unicode的不同。所以如果以g b k编码的形式存储,我们就要专门指定用g b k的形式进行解码。

1.在python2默认编码是ASCII, python3里默认是unicode;另外每个软件通常也会有自己默认的编码形式。

2.在py3中encode,在转码的同时还会把string 变成bytes类型,decode在解码的同时还会把bytes变回string

3.另外,这里非常值得注意的事情是,我们所关心的字符编码,他的对象是字符而不是数字。数字基本上可以看成是直接存储的。

http://www.cnblogs.com/yuanchenqi/articles/5956943.html

时间: 2024-11-15 10:29:30

Python学习-字符编码的理解的相关文章

Python常见字符编码间的转换

学习Python,字符编码间的转换是绕不过去的一只拦路虎,不把编码彻底搞明白,总有一天它会猝不及防坑你一把. Python2.x和Python3.x在字符编码的设置上也有很大区别(Python3未来将是主流,所以Python3为主),今天我们就来一起学习下. 上一篇文章里我已经简述了Python的常见编码了,这里就不再赘述了,还不清楚的小伙伴可以先去看下:     http://www.cnblogs.com/schut/p/8406897.html 一.Unicode 和 UTF-8的纠葛 U

python 学习笔记-----编码问题

1.python 最早支持的是ASCII编码. 所以对于普通的字符串"ABC"为ASCII编码的形式.字母和数字之间的转换函数为ord('字母')和chr(‘数字’)函数. ord(‘A’)  输出 65     chr(65)输出 ‘A’ 2.后来添加了Unicode编码: 形式:u‘...’     例如 u‘中文’   用print 输出则为:中文   直接输出为一串编码字符 3.Unicode和utf-8 之间的转换: a.Unicode转换为utf-8的形式:u‘...’.e

python 处理字符编码问题

今天好不容易重新开始写Python做实验,结果被字符编码虐的体无完肤.其实之前就已经比较清楚python处理字符编码的套路,但是今天白天反复的出现can't encode/decode ..., the original code not in 178之类的提示,甚是无力,后来偶尔使用了一下sys.setdefaultencoding('utf8')就解决了全部问题,真是不解. 下面还是总结一下Python几个编码设置的含义吧. 1. #coding=utf8 这种形式的注释告诉解释器,应该以c

《转》Python学习(13)-Python的字符编码

转自 http://www.cnblogs.com/BeginMan/p/3166363.html 一.字符编码中ASCII.Unicode和UTF-8的区别 点击阅读:http://www.cnblogs.com/kingstarspe/p/ASCII.html 再推荐一篇相关博文:http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 二.Unicode与ASCII Python能处理Unicode和ASCII编码,为了让这两者

python之字符编码(四)

一.字符编码的使用: 1.文本编辑器 unicode----->encode-------->utf-8 utf-8-------->decode---------->unicode 补充: 浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器 如果服务端encode的编码格式是utf-8, 客户端内存中收到的也是utf-8编码的结果. 2.文本编辑器nodpad++: 分析过程?什么是乱码 文件从内存刷到硬盘的操作简称存文件 文件从硬盘读到内存的操

Python:字符编码详解

相关文章 Python中文编码问题:为何在控制台下输出中文会乱码及其原理 1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Information Interchange),是一种单字节的编码.计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号.不过ASCII只用到了其中的一半(\x80以下),这也是MBCS得以实现的基础. 1.2. MBCS 然而计算机世界里很快就有了其他语言,单字节

第六节,初识python和字符编码

程序语言的发展 机器语言 程序语言,最初的计算机语言是机器语言,完全是0和1组成的二进制串  如:01010101 11010101 汇编语言 因为01010101的字符串,冗长,不利于维护,所以产生了带助记符的汇编语言 举例:fua = 01010101    fub = 11010101 c语言 在汇编的基础上开发了c语言 有了常量,变量,字符串,等运算规则 java.c#.php.python 在c语言的基础长有发展了java.c#.php.python 等各种语言 这些语言都需要安装运行

走入计算机的 第十七天(python的字符编码和函数)

一  字符编码的只是储配 1. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容也都是存放与内存中的,断电后数据丢失 因而需要保存到硬盘上,点击保存按钮,就从内存中把数据刷到了硬盘上. 在这一点上,我们编写一个py文件(没有执行),跟编写其他文件没有任何区别,都只是在编写一堆字符而已. 2. python解释器执行py文件的原理 ,例如python test.py 第一阶段:python解释器启动,此

对字符编码的理解

1.含义 关于人类文明中的语言符号与计算机所认识的0和1之间的一个对应关系表.字符-------通过翻译----------计算机认识的数字.这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码.同一编码规范的不同版本间具有向下兼容性. 2.发展历史 (1)阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCIIASCII:一个Bytes代表一个字符(英文字符/键盘上的所有其他字符),1Bytes=8bit,8bit可以表示0-2**8-1种变化,即可以表示256