《转》Python学习(13)-Python的字符编码

转自 http://www.cnblogs.com/BeginMan/p/3166363.html

一、字符编码中ASCII、Unicode和UTF-8的区别

点击阅读：http://www.cnblogs.com/kingstarspe/p/ASCII.html

二、Unicode与ASCII

Python能处理Unicode和ASCII编码，为了让这两者看起来尽可能的相似，Python字符串从原来简单的类型改成了真正的对象。ASCII字符串成了StringType、Unicode字符串成了UnicodeType。使用如下：

>>> "hello world"    #ASCII string
‘hello world‘
>>> u"hello world"    #Unicode string
u‘hello world‘
>>>

1、str()、chr()只能以0~255作为参数，也即是说只处理ASCII字符串。如果有Unicode字符串，则会先自动转换成ASCII的然后在传入这些函数中。

原因：Unicode支持的字符多，如果在str()、chr()中有ASCII不存在的字符，则会发生异常。

2、unicode()、unichar()可以看做是Unicode版本的str()和chr()。

>>> unicode(‘hello world‘)
u‘hello world‘

三、编码与解码

它们解决的问题就是编码(encode())、解码(decode())问题，不至于出现乱码。

Codec表示编码方式。

""" 把一个Unicode字符串写入到磁盘文件，然后再把它读出并显示;
    写入的时候用UTF-8，读也一样用UTF-8。"""

CODEC = ‘utf-8‘
FILE = ‘demo.txt‘

strIn = u‘BeginMan will be a great coder‘
byte_strIn = strIn.encode(CODEC)  #以uft-8进行编码
f = open(FILE,‘w‘)
f.write(byte_strIn)
f.close()

f = open(FILE,‘r‘)
str = f.read()
f.close()
str_out = str.decode(CODEC) #以utf-8进行解码
print str_out   #输出：BeginMan will be a great coder

注意：

1、程序中出现字符串时一定要在前面加上前缀u

s= ‘博客园Cnblog‘  #不要这样写,这样容易乱码如：鍗氬鍥瑿nblog
s = u‘博客园Cnblog‘#正确

2、不要使用str()函数，尽量用unicode()代替

3、不要使用过时的string 模块

4、没必要在程序中编码或解码unicode字符串，编码解码一般用于操作文件、数据库、网络等才使用。

5、字符串格式化

>>> ‘%s %s‘ %(‘Begin‘,‘man‘)
‘Begin man‘

#还记得上次的关于字符串的博客中说到的：“普通字符串与unicode字符串能转换成unicode字符串”
>>> u‘%s %s‘ %(u‘Begin‘,u‘Man‘)
u‘Begin Man‘
>>> u‘%s %s‘ %(‘Begin‘,‘Man‘)
u‘Begin Man‘
>>> ‘%s %s‘ %(u‘Begin‘,‘man‘)
u‘Begin man‘
>>> ‘%s %s‘ %(‘Begin‘,u‘man‘)
u‘Begin man‘

时间： 2024-10-15 14:36:19

《转》Python学习(13)-Python的字符编码的相关文章

python学习第四天 --字符编码与格式化

字符编码与格式化第三天已经知道了字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. 由于计算机是美国人发明的,因此,

python学习笔记8-9（字符编码与二进制）

字符编码 python解释器在加载.py文件中的代码时,会对内容进行编码(默认ASCII) 二进制举例:古时候烽火台,点火和不点火只有两种状态,传递信息太少. 约定点火数1,代表1-100 点火数2,代表101-1000 点火数3,代表1001-5000 点火数4,代表5001-1000 虽然有进步,但还不够精确如果引入二进制,可以精确表示任意数字符编码二进制和字母的转换 ASCII(American Standard Code for Information Interchange,美

Python学习，第二课 - 字符编码

关于字符编码 python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill) ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256-1,所以,ASCII码最多只能表示 255 个符号. 关于中文为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体

Python学习（一）字符编码

字符编码字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式.自然数序列.8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递.常见的例子包括将拉丁字母表编码成摩斯电码和ASCII.其中,ASCII将字母.数字和其它符号编号,并用7比特的二进制来表示这个整数.通常会额外使用一个扩充的比特,以便于以1个字节的方式存储. 在计算机技术发展的早期,如ASCII(1963年)和EBCDIC(1964年)这样的字符集逐渐成

python学习第十八天计算机字符编码

人类语言和计算机语言二进制怎么沟通,最开始字符编码为ascii码对照表包括数据和字母,没有汉字,中国自己搞了一套自己的编码 gb2312编码后来发展GBK编码,日本,韩国都,甚至台湾也搞自己的编码,最后国际统一一个编码为unicode 编码但是unicode编码统一占两个字符,英文占一个字符,中文占两个字符,泰文占3个字符,后来发展演变统一 UTF格式 utf-8,这种可长可短的,比较适合所有国家的编码方式. 1,二进制 0,1 二进制 0,1,2,3,4,5,6,7 八进制 0.1.2

Python学习-13.Python的输入输出（二）

在Python中,读取文件使用open函数 1 file=open(r'E:\temp\test.txt','r') 2 var = file.read() 3 print(var) 4 file.close() 第一行打开E:\temp\test.txt文件,注意字符串开头使用了r,r表明字符串内的内容不转义,像C#中的@.在Python中,如果要让字符串不转义,则在字符串开头加上r或R即可.第二个参数表明只读文件. 'r' 只读 'w' 只写 'a' 追加 'b' 二进制 'r+','a+'

Python : 熟悉又陌生的字符编码（转自Python 开发者）

Python : 熟悉又陌生的字符编码字符编码是计算机编程中不可回避的问题,不管你用 Python2 还是 Python3,亦或是 C++, Java 等,我都觉得非常有必要厘清计算机中的字符编码概念.本文主要分以下几个部分介绍: 基本概念常见字符编码简介 Python 的默认编码 Python2 中的字符类型 UnicodeEncodeError & UnicodeDecodeError 根源基本概念字符(Character) 在电脑和电信领域中,字符是一个信息单位,它是各种文字和符号

python的u'字符串"（字符编码）：字符串前有u，表示字符串以unicode格式存储

举个例子 >>> s = u'\u6ce8\u91ca' >>> s u'\u6ce8\u91ca' >>> print s 注释 >>> print type(s) <type 'unicode'> >>> print s.encode('gbk') 注释字符串前加u表示为unicode编码,而当前文本的unicode编码可以设定, 比如utf-8编码就是第一行加上: # -*- coding: u

Python学习教程（Python学习路线+Python学习视频）：Python数据结构

Python学习教程(Python学习路线+Python学习视频):Python数据结构数据结构引言: 数据结构是组织数据的方式,以便能够更好的存储和获取数据.数据结构定义数据之间的关系和对这些数据的操作方式.数据结构屏蔽了数据存储和操作的细节,让程序员能更好的处理业务逻辑,同时拥有快速的数据存储和获取方式. 在这篇文章中,你将了解到多种数据结构以及这些数据结构在Python中实现的方式. 抽象数据类型和数据结构数据结构是抽象数据类型(ADT)的实现,通常,是通过编程语言提供的