Python 之 字符转编码操作

字符转编码操作

# -*- coding:utf-8 -*-
import sys
print(sys.getdefaultencoding())

s = "你好"

python2写法,将s转换成"gbk"

s_to_gbk = s.decode("utf-8").encode("gbk")

#1.在Python2下,所有字符编码为"ascii"
#2.当文件头声明定义为:utf-8
#3.将s转换gbk,首先将s解码成utf-8: s.decode("utf-8"),utf-8其实就是unicode的扩展,所以后面可直接编码。
#4.将s从utf-8编码成gbk,s.decode("utf-8").encode("gbk")

Python3写法,将s转换成“gbk"

s_to_gbk = s.encode("gbk")

#1.在Python3下,所有字符编码为"utf-8"(unicode)
#2.将s解码成gbk, s.encode("gbk")

#备注:Python2 与 Python3 区别:
#1. Python2 的字符默认为ASCII , Python3 的字符默认为utf-8(unicode)
#2. 因所有字符编码之间的转换都需要经过unicode,所以python2 比python3 多了一个步骤。

原文地址:http://blog.51cto.com/12965094/2345717

时间: 2024-10-13 11:09:25

Python 之 字符转编码操作的相关文章

Python基础【day03】:字符转编码操作

一.概述 说到python的编码,一句话总结,说多了都是泪啊,这个在以后的python的开发中绝对是一件令人头疼的事情.所以有必要要讲讲清楚 二.编码介绍 1.须知: 在python 2中默认编码是 ASCII,而在python 3中默认编码是 unicode unicode 分为utf-32 (占4个字节),utf-16(占两个字节),utf-8(占1-4个字节),所以utf-16 是最常用的unicode版本,但是在文件里存的还是utf-8,因为utf8省空间 在python 3,encod

Python 基础 - Day 2 Learning Note - 字符转编码操作

前情提要:字符编码 python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill).ASCILL有255个字符,包括英语和西欧字符,不包括中文.汉字处理靠GBK, window的中文内码.Unicode(统一码.万国码.单一码)是一种在计算机上使用的字符编码.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,规定虽有的字符和符号最少由 16 位来表示(2个字节),即:2 **16 = 65536,(注:此处

Python中字符的编码与解码

1 文本和字节序列 我们都知道字符串,就是由一些字符组成的序列构成串,那么字符又是什么呢?计算机只能识别二进制的东西,那么计算机又为什么会显示我们的汉字,或者是某个字母呢? 由于最早发明使用计算机是美国人,他们为了解决了英语如何在电脑上显示,就制定了一套标准:ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码),主要用于显示现代英语和其他西欧语言.到目前为止共定义了128个字符,从0-127的二进制数分别

python学习-字符和编码

一.ASCII.Unicode.UTF-8的由来和关系 1.由来:因为计算机只识别数字,所以计算机的发明国家美国对大小写英文字母.数字以及一些特殊符号进行了编码,共127个,即ASCII编码表. 2.发展:因为ASCII编码不支持中文,所以中国制定了GB1312编码,韩国制定了Euc-kr.日本制定了Shift-JIS... 3.整合:世界上有上百种语言,使用各自的编码最终的结果就是乱码.因此Unicode编码出现了,Unicode支持所有的语言.也是计算机使用的编码. 4.优化:Unicode

Python:字符编码详解

相关文章 Python中文编码问题:为何在控制台下输出中文会乱码及其原理 1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Information Interchange),是一种单字节的编码.计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号.不过ASCII只用到了其中的一半(\x80以下),这也是MBCS得以实现的基础. 1.2. MBCS 然而计算机世界里很快就有了其他语言,单字节

python 处理字符编码问题

今天好不容易重新开始写Python做实验,结果被字符编码虐的体无完肤.其实之前就已经比较清楚python处理字符编码的套路,但是今天白天反复的出现can't encode/decode ..., the original code not in 178之类的提示,甚是无力,后来偶尔使用了一下sys.setdefaultencoding('utf8')就解决了全部问题,真是不解. 下面还是总结一下Python几个编码设置的含义吧. 1. #coding=utf8 这种形式的注释告诉解释器,应该以c

Python常见字符编码间的转换

学习Python,字符编码间的转换是绕不过去的一只拦路虎,不把编码彻底搞明白,总有一天它会猝不及防坑你一把. Python2.x和Python3.x在字符编码的设置上也有很大区别(Python3未来将是主流,所以Python3为主),今天我们就来一起学习下. 上一篇文章里我已经简述了Python的常见编码了,这里就不再赘述了,还不清楚的小伙伴可以先去看下:     http://www.cnblogs.com/schut/p/8406897.html 一.Unicode 和 UTF-8的纠葛 U

二进制转换、字符编码的演化、Python里使用的编码、浮点数、浮点数的精确度问题

二进制转换 二进制是计算技术中广泛采用的一种数制.二进制数据是用0和1两个数码来表示的数.它的基数为2,进位规则是"逢二进一",借位规则是"借一当二",由18世纪德国数理哲学大师莱布尼兹发现.当前的计算机系统使用的基本上是二进制系统,数据在计算机中主要是以补码的形式存储的.计算机中的二进制则是一个非常微小的开关,用"开"来表示1,"关"来表示0. 古时候敌人来了,如何通信呢? ①派人跑着去通知,速度太慢,等人回来,仗也打完了.

python 之字符串和编码

字符编码 我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. 由于计算机是美国人发明的,因此,最早只有1