python第三方库系列之十五--编码库

首先上一张图:

我们知道:1字节=8位

因为Python的诞生比Unicode标准发布的时间还要早,所以最早的Python只支持ASCII编码,普通的字符串‘ABC‘在Python内部都是ASCII编码的。Python提供了ord()和chr()函数,可以把字母和对应的数字相互转换:

>>> ord(‘A‘)
65
>>> chr(65)
‘A‘

Python在后来添加了对Unicode的支持,以Unicode表示的字符串用u‘...‘表示,比如:

>>> print u‘中文‘
中文
>>> u‘中‘
u‘\u4e2d‘

u‘中‘u‘\u4e2d‘是一样的,\u后面是十六进制的Unicode码。因此,u‘A‘u‘\u0041‘也是一样的。

两种字符串如何相互转换?字符串‘xxx‘虽然是ASCII编码,但也可以看成是UTF-8编码,而u‘xxx‘则只能是Unicode编码。

u‘xxx‘转换为UTF-8编码的‘xxx‘encode(‘utf-8‘)方法:

>>> u‘ABC‘.encode(‘utf-8‘)
‘ABC‘
>>> u‘中文‘.encode(‘utf-8‘)
‘\xe4\xb8\xad\xe6\x96\x87‘

英文字符转换后表示的UTF-8的值和Unicode值相等(但占用的存储空间不同),而中文字符转换后1个Unicode字符将变为3个UTF-8字符,你看到的\xe4就是其中一个字节,因为它的值是228,没有对应的字母可以显示,所以以十六进制显示字节的数值。len()函数可以返回字符串的长度:

>>> len(u‘ABC‘)
3
>>> len(‘ABC‘)
3
>>> len(u‘中文‘)
2
>>> len(‘\xe4\xb8\xad\xe6\x96\x87‘)
6

反过来,把UTF-8编码表示的字符串‘xxx‘转换为Unicode字符串u‘xxx‘decode(‘utf-8‘)方法:

>>> ‘abc‘.decode(‘utf-8‘)
u‘abc‘
>>> ‘\xe4\xb8\xad\xe6\x96\x87‘.decode(‘utf-8‘)
u‘\u4e2d\u6587‘
>>> print ‘\xe4\xb8\xad\xe6\x96\x87‘.decode(‘utf-8‘)
中文

由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

第一行注释是为了告诉Linux/OS X系统,这是一个Python可执行程序,Windows系统会忽略这个注释;

第二行注释是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。

时间: 2024-11-04 22:51:35

python第三方库系列之十五--编码库的相关文章

python第三方库系列之十四--集群化部署定时任务apscheduler库

如果将定时任务部署在一台服务器上,那么这个定时任务就是整个系统的单点,这台服务器出现故障的话会影响服务.对于可以冗余的任务(重复运行不影响服务),可以部署在多台服务器上,让他们同时执行,这样就可以很简单的避免单点.但是如果任务不允许冗余,最多只能有一台服务器执行任务,那么前面的方法显然行不通.本篇文章就向大家介绍如何避免这种互斥任务的单点问题,最后再介绍一下基于APScheduler的分布式定时任务框架,这个框架是通过多个项目的实践总结而成的. 对于运行在同一台服务器上的两个进程,可以通过加锁实

Python之路【第十五篇】:Web框架

Python之路[第十五篇]:Web框架 Web框架本质 众所周知,对于所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 #!/usr/bin/env python #coding:utf-8   import socket   def handle_request(client):     buf = client.recv(10

quick-cocos2d-x 学习系列之十五 状态机

quick-cocos2d-x 学习系列之十五 状态机 1.  代码 -- create Finite StateMachine self.fsm_ = {} cc.GameObject.extend(self.fsm_) :addComponent("components.behavior.StateMachine") :exportMethods() self.fsm_:setupState({ events = { {name = "start", from

C++语言笔记系列之十五——派生类、基类、子对象的构造和析构函数调用关系

例子 example 1 注:若一个基类同时派生出两个派生类,即两个派生类从同一个基类继承,那么系统将为每一个简历副本,每个派生类独立地使用自己的基类副本(比如基类中有属于自己类的静态变量等). #include <iostream.h> class Person { public: person() {cout<<"Construction of person."<<endl;} ~person() {cout<<"Destr

python第三方库系列之十八--python/django test库

django是属于python语音的web框架,要说django測试.也能够先说说python的測试.django能够用python的方式測试,当然,django也基于python封装了一个自己的測试库. 一.python的測试--unitest库 def my_func(a_list, idx): return a_list[idx] import unittest class MyFuncTestCase(unittest.TestCase): def testBasic(self): a

PHP系列(十)GD库

GD库 1.Php中gd库的使用 Gd库是一个画图或处理有图片的函数库 2.使用gd库画图 GD库图像绘制的步骤 在PHP中创建一个图像应该完成如下所示的4个步骤: 1.创建一个背景图像(也叫画布),以后的操作都基于此背景图像. 2.在背景上绘制图像轮廓或输入文本. 3.输出最终图形 4.释放资源 代码: <?php //1. 创建画布 $im = imageCreateTrueColor(200, 200); //建立空白画布背景 $white = imageColorAllocate($im

python第三方库系列之十六--建立最简单的web服务器

利用Python自带的包可以建立简单的web服务器.在DOS里cd到准备做服务器根目录的路径下,输入命令: python -m Web服务器模块 [端口号,默认8000] 例如: python -m SimpleHTTPServer 8080 然后就可以在浏览器中输入 http://localhost:端口号/路径 来访问服务器资源. 例如: http://localhost:8080/index.htm(当然index.htm文件得自己创建) 其他机器也可以通过服务器的IP地址来访问. 这里的

python第三方库系列之十--commands库

我们这次讲的是利用commands模块执行Linux shell命令,当我们用Python写运维脚本时,经常需要执行linux shell的命令,Python中的commands模块专门用于调用Linux shell命令,并返回状态和结果,下面是commands模块的3个主要函数: 1.commands.getoutput('shell command') 2.commands.getstatus('file') 3.commands.getstatusoutput('shell command

python第三方库系列之十九--python测试使用的mock库

一.为什么需要mock 在写unittest的时候,如果系统中有很多外部依赖,我们不需要也不希望把所有的部件都运行一遍.比如,要验证分享到微博的功能,如果每次测试的时候都要真实地把接口调用一遍,不仅效率低,制造很多垃圾数据,还可能因为外部因素导致unittest失败.对于有些耗时更久,或者无法简单创建测试环境的系统,真实的测试就显得更不必要. 我们只需要知道代码按照预期执行,并调用了相关的外部接口.还是拿分享到微博这个功能做例子,分享部分的伪代码可能是这样的: def share(): "&qu