python转码要诀

python 有str object 和 unicode object 两种字符串, 都可以存放字符的字节编码，但是他们是不同的type，这一点很重要，也是为什么会有encode 和decode。

encode 和 decode在pyhton 中的意义可表示为

encode
                                              unicode -------------------------> str
                                              unicode <--------------------------str
                                                                  decode
几种常用法：
str_string.decode(‘codec‘) 是把str_string转换为unicode_string, codec是源str_string的编码方式
unicode_string.encode(‘codec‘) 是把unicode_string 转换为str_string，codec是目标str_string的编码方式
str_string.decode(‘from_codec‘).encode(‘to_codec‘) 可实现不同编码的str_string之间的转换
比如：

>>> t=‘长城‘
>>> t
‘\xb3\xa4\xb3\xc7‘
>>> t.decode(‘gb2312‘).encode(‘utf-8‘)
‘\xe9\x95\xbf\xe5\x9f\x8e‘

str_string.encode(‘codec‘) 是先调用系统的缺省codec去把str_string转换为unicode_string，然后用encode的参数codec去转换为最终的 str_string. 相当于str_string.decode(‘sys_codec‘).encode(‘codec‘)。

unicode_string.decode(‘codec‘) 基本没有意义，unicode 在python里只用一种unicode编码，UTF16或者UTF32（编译python时就已经确定)，没有编码转换的需要。

注：缺省codec在site-packages下的sitecustomize.py文件中指定，比如

import sys
sys.setdefaultencoding(‘utf-8‘)

时间： 2024-08-29 04:32:55

python转码要诀的相关文章

浮生半日：探究Python字节码

好吧!"人生苦短,请用Python",作为python爱好者以及安全从业者,而且最近也碰到了一些这方面的问题,懂点python字节码还是很有必要的. Python是一门解释性语言,它的具体工作流程如下: 1:编译,形成.pyc或.pyo后缀的语言 2:放入解释器,解释器执行字节流(opecode) 和java字节码一样,他们都是基于栈进行解释的.首先,先来看对pyc文件进行一个直观的理解: 一:直面pyc文件 pyc文件的生成一般用于加快Python的解释速度,运行时,如果pyc的编译

[Python源码剖析]字符缓冲池intern机制

static PyStringObject *characters[UCHAR_MAX + 1]; ... /* This dictionary holds all interned strings. Note that references to strings in this dictionary are *not* counted in the string's ob_refcnt. When the interned string reaches a refcnt of 0 the st

《python源码剖析》笔记 Python虚拟机框架

本文为senlie原创,转载请保留此地址:http://blog.csdn.net/zhengsenlie 1. Python虚拟机会从编译得到的PyCodeObject对象中依次读入每一条字节码指令, 并在当前的上下文环境中执行这条字节码指令. Python虚拟机实际上是在模拟操作中执行文件的过程 PyCodeObject对象中包含了字节码指令以及程序的所有静态信息,但没有包含程序运行时的动态信息--执行环境(PyFrameObject) 2.Python源码中的PyFrameObject

《python源码剖析》笔记 python虚拟机中的一般表达式

本文为senlie原创,转载请保留此地址:http://blog.csdn.net/zhengsenlie 1.字节码指令 LOAD_CONST:从consts表中读取序号为i的元素并压入到运行时栈中 STORE_NAME:改变local名字空间.从符号表names取序号为i的元素作为变量名, 取运行时栈的栈顶元素作为变量值,完成从变量名到变量值的映射关系的创建. BUILD_MAP:创建一个空的PyDictObject对象,并压入运行时栈 DUP_TOP:将栈顶元素的引用计数增加1,并将它再次

Python源码分析（一）

最近想学习下Python的源码,希望写个系列博客,记录的同时督促自己学习. Python源码目录从Python.org中下载源代码压缩包并解压,我下载的是Python2.7.12,解压后: 对于主要的文件夹做出介绍: Include:包含Python提供的所有头文件,如果需要自己使用C或者C++编写自定义模块扩展Python,就需要用到这里的头文件: Lib: 包含Python自带的所有标准库,全部由Python语言编写: Modules:包含了所有使用C语言编写的模块: Parser:Pyt

Python源码剖析笔记3-Python执行原理初探

Python源码剖析笔记3-Python执行原理初探本文简书地址:http://www.jianshu.com/p/03af86845c95 之前写了几篇源码剖析笔记,然而慢慢觉得没有从一个宏观的角度理解python执行原理的话,从底向上分析未免太容易让人疑惑,不如先从宏观上对python执行原理有了一个基本了解,再慢慢探究细节,这样也许会好很多.这也是最近这么久没有更新了笔记了,一直在看源码剖析书籍和源码,希望能够从一个宏观层面理清python执行原理.人说读书从薄读厚,再从厚读薄方是理解了

Python源码剖析笔记0 ——C语言基础

python源码剖析笔记0--C语言基础回顾要分析python源码,C语言的基础不能少,特别是指针和结构体等知识.这篇文章先回顾C语言基础,方便后续代码的阅读. 1 关于ELF文件 linux中的C编译得到的目标文件和可执行文件都是ELF格式的,可执行文件中以segment来划分,目标文件中,我们是以section划分.一个segment包含一个或多个section,通过readelf命令可以看到完整的section和segment信息.看一个栗子: char pear[40]; static

python源码剖析笔记1——Python对象初见

python源码剖析笔记1--Python对象初见工作整两年了,用python最多,然而对于python内部机制不一定都清楚,每天沉醉于增删改查的简单逻辑编写,实在耗神.很多东西不用就忘记了,比如C语言,正好,python源码用C写的,分析python源码的同时又能温故C语言基础,实在是件很好的事情.另外,还有陈儒大神的<python源码剖析>做指引,分析也不至于没头没脑.期望在一个月的业余时间,能有所小成,以此为记. 1 python中的对象 python中,一切东西都是对象,在c语言实现

Python字节码与解释器学习

参考:http://blog.jobbole.com/55327/ http://blog.jobbole.com/56300/ http://blog.jobbole.com/56761/ 1. 在交互式命令行中执行命令的内部过程当你敲下return键的时候,python完成了以下四步:词法分析.句法分析.编译.解释.词法分析的工作就是将你刚才输入的那行代码分解为一些符号token(译者注:包括标示符,关键字,数字, 操作符等).句法分析程序再接收这些符号,并用一种结构来展现它们之间的关系(

猜你喜欢

算法导论第三版 9.3-8

1 # -*- coding: utf-8 -*- 2 import math 3 4 def merge(l1, l2): 5 list_merge = [] 6 i = j = 0 7 while ...

浅谈！SQL语句中LEFT JOIN ON WHERE和LEFT JOIN ON AND的区别

今天的工作学习之路是一个数据库的小知识,当时没有区分出所以然,特此记录分享一下子. 众所周知,数据库的表都是单独存在的,但是当我们进行联合查询(多表查询)时,我们获得数据库返回的值时就好像在一张表里一 ...

Linux系统编程——进程间通信：信号中断处理

什么是信号? 信号是 Linux 进程间通信的最古老的方式.信号是url=474nN303T2Oe2ehYZjkrggeXCaJPDSrmM5Unoh4TTuty4wSgS0nl4-vl43AGMFb ...

C++ operator overload -- 操作符重载

C++ operator overload -- 操作符重载 2011-12-13 14:18:29 分类: C/C++ 操作符重载有两种方式,一是以成员函数方式重载,另一种是全局函数. 先看例子 # ...

[leedcode 26] Remove Duplicates from Sorted Array

Given a sorted array, remove the duplicates in place such that each element appear only once and ret ...

<<编程的未来>>读书笔记

1.编程的本质是思考． 2.无论使用什么编程语言,生产一条基本语句所需要的工数几乎是一定的．(<<人月神话>>)#使用抽象程度高的语言可以提高生产效率． 3.DSL:What, ...

POJ 3259 Wormholes (最短路)

Wormholes Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 34302 Accepted: 12520 Descr ...

平面[问题描述]二维的空间即是平面.我们在二维空间中定义直角坐标系,并用网格将空间划分为单位面积的一块一块,并给每块一个二维坐标.我们假设有一个小生命生活在二维空间中从(1,1)到(n,m)的共n×m ...

oracle如何清空一个用户下的所有表中的数据？

-- 大概这个样子,如果没有 FK 的话,一下子就都删掉了. begin for x in (select table_name from user_tables) loop execute imm ...

分治法求最近点对

/** 最近点对问题,时间复杂度为O(n*logn*logn) */ #include <iostream> #include <cstdio> #include <cs ...

Apache 虚拟主机配置方法

打开httpd.conf文件去掉LoadModule vhost_alias_module modules/mod_vhost_alias.so前面的#号去掉Include conf/extra/ ...

笨鸟先飞之Java--MySql中文数据乱码为哪般？？？

从开始敲drp到现在的hibernate,中文数据乱码无时无刻不"陪伴"在我的身边: 图一:在drp的分销商模块,每次修改区域虽然返回修改成功,但是每次读取到的中文数据都是&quo ...

1.easy ui ProgressBar <div style="margin:20px 0;"> <a href="#" class=&q ...

互联网金融将成房产O2O的新战场

前有鄂尔多斯.后有陕西神木,房地产泡沫下催生了一座又一座鬼城.对于地产商们来说,疯狂的拿地,然后疯狂的盖楼,房子却卖不出去导致了地产商的资金链断缺,无数中小房地产企业正在面临着倒闭的风险.与此同时,房 ...

仿万科底部的新闻滑动特效

仿万科底部的新闻滑动特效: <!DOCTYPE html> <html lang="en"> <head> <meta charset=& ...

【C语言】【面试题】C++中String类浅拷贝，深拷贝的传统写法与现代写法

C++ 的一个常见面试题是让你实现一个 String 类,在这我把String类的各种写法写了一下 1.浅拷贝 #define _CRT_SECURE_NO_WARNINGS 1 #include&l ...

分享3个Putty配色方案【转】

本文转载自:https://www.coder4.com/archives/1506 分享3个Putty配色方案 4 Replies 虽然服务器都是Linux的,平时也基本用Linux,但是难免还是要 ...

[转]JVM运行时内存结构

目录[-] 1.为什么会有年轻代 2.年轻代中的GC 3.一个对象的这一辈子 4.有关年轻代的JVM参数 1.为什么会有年轻代我们先来屡屡,为什么需要把堆分代?不分代不能完成他所做的事情么?其实不分 ...

使用Storm实现实时大数据分析(转)

原文链接:http://blog.csdn.net/hguisu/article/details/8454368 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成 ...

Python Cookbook(第3版)中文版

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.