Python 基础 - Day 2 Learning Note - 字符转编码操作

前情提要:字符编码

python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill)。ASCILL有255个字符,包括英语和西欧字符,不包括中文。汉字处理靠GBK, window的中文内码。Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,规定虽有的字符和符号最少由 16 位来表示(2个字节),即:2 **16 = 65536,(注:此处说的的是最少2个字节,可能更多)

UTF-8,是对Unicode编码的压缩和优化,他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存...

注意三个关键:

1.在python2默认编码是ASCII, python3里默认是unicode。 UTF-8是unicode的扩展集, 。核心思想:

2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), so utf-16就是现在最常用的unicode版本, 不过在文件里存的还是utf-8,因为utf8省空间

3.在py3中encode,在转码的同时还会把string 变成bytes类型,decode在解码的同时还会把bytes变回string

Py3.x的转码操作

首先,需要声明文件编码为GBK, 但是数据编码还是默认utf-8

#  -*- coding:gbk -*-      # 改的是文件编码,非数据编码
import sys
print(sys.getdefaultencoding())  # 打印系统默认编码

utf-8

s = ‘你好‘  # 这还是个unicode
print(s.encode("gbk"))   # 转成gbk,转成bytes类型

b‘\xc4\xe3\xba\xc3‘

print(s.encode(‘utf-8‘))  # 转成UTF-8,也转成bytes类型

b‘\xe4\xbd\xa0\xe5\xa5\xbd‘

print(s.encode(‘utf-8‘).decode(‘utf-8‘).encode(‘gb2312‘))

b‘\xc4\xe3\xba\xc3‘

重要解读: Python 编码终极版 by 吴苑

时间: 2024-11-05 14:56:26

Python 基础 - Day 2 Learning Note - 字符转编码操作的相关文章

Python基础【day03】:字符转编码操作

一.概述 说到python的编码,一句话总结,说多了都是泪啊,这个在以后的python的开发中绝对是一件令人头疼的事情.所以有必要要讲讲清楚 二.编码介绍 1.须知: 在python 2中默认编码是 ASCII,而在python 3中默认编码是 unicode unicode 分为utf-32 (占4个字节),utf-16(占两个字节),utf-8(占1-4个字节),所以utf-16 是最常用的unicode版本,但是在文件里存的还是utf-8,因为utf8省空间 在python 3,encod

Python 基础 - Day 4 Learning Note - Generator 生成器

列表生成器/列表解析 list comprehension 简单灵活地创建列表,通常和lambda(), map(), filter() 一起使用 通过列表生成式, 直接创建列表.但是,收到内容限制,列表容量肯定是有限的.而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问几个元素,那其他的就白占空间.列表生成器能够一边循环一边计算,大大节省大量的空间.是生成器的一种. 只有调用,才能生成. 不支持切片操作,只能通过__next()___一个个取数字. 基本语法

Python 基础 - Day 5 Learning Note - 模块 之 标准库:RE (14) 正则表达式

RE 模块介绍 正则表达式(RE)用作于处理文件和数据,为高级文本模式匹配,以及搜索-替代等功能提供基础. 实质就是一些由字符和特殊符号(元字符:metacharacter)组成的字符串,它们描述了这些字符和字符的某种重复方式,因此能按某种模式匹配一个有相似特征的字符串的集合,也能按某种模式匹配一系列有相似特征的字符串,我们称为模式匹配 (patten match). 在python中, pattern-match 有两种主要方式完成: 搜索(search)和匹配(match). 搜索,在字符串

Python 基础 - Day 4 Learning Note - 模块 - Json & Pickle

Json和Pickle的区别 在python的序列化的两个模块中,json模块是用于字符串和python数据类型间进行转换:另一个pickle模块,是用于python特有的类型(所有数据类型和python的数据类型间进行转换.json是可以在不同语言之间交换数据的,而pickle只在python之间使用.json只能序列化最基本的数据类型,json只能把常用的数据类型序列化(列表.字典.列表.字符串.数字.),比如日期格式.类对象!josn就不行了.而pickle可以序列化所有的数据类型,包括类

Python 基础 - Day 5 Learning Note - 模块 之 标准库:random 模块

常用操作 import random # 随机浮点数 print(random.random()) # 0.1706000097536472 # 返回生成一个0到1的随机浮点数: 0<= n <= 1 print(random.uniform(1,8)) # 4.060336609768256 # 函数语法: random.uniform(a,b) # 返回生成以a为下限,b为上限的随机浮点数: a<=n<=b # 随机整数 print(random.randint(1,10))

Python 基础 - Day 5 Learning Note - 模块 之 标准库:time (1)

时间的表示方式 1. 间戳 timestamp:  从1970年1月1日 00:00:00 开始按秒计算的偏移量,以float数据类型呈现. 返回时间戳的函数有: time() , clock() 等. 2. sruct_time 元祖方式: 返回struct_time元祖的函数包括 gmtime(), localtime(), strptim(). 返回的元祖包括以下9个元素. 索引 INDEX 属性 ATTRIBUTE 值 VALUES 0 tm_year  比如2011 1 tm_mon

Python 基础 - Day 2 Learning Note - Function 函数

前言: 编程的三种方式 面向对象:类 (class) 面向对象 : 过程 (def) 函数式编程: 函数 (def) 定义:函数 vs. 过程 在python中,函数是对程序逻辑进行结构化或过程化的一种编程方法. 函数式编程就是:先定义一个数学函数, 然后按照这个数学模型用编程语言来实现. 过程式的编程就是没有返回值的函数式编程. 见下列 def func1(): 'the function discption - define a function' #文档介绍,强烈推荐解释function的

Python 基础 - Day 5 Learning Note - 模块 之 介绍篇

定义 模块(module)支持从逻辑上组织Python代码,本质就是.py结尾的python文件(e.g.文件名:test.py; 模块名:test),目的是实现某项功能.将其他模块属性附加到你的模块中的操作叫导入(import). 模块分为三类:标准库.开源模块(open source module)和自定义模块. 包(package)是一个有层次的文件目录结构, 定义了一个由模块和子包组成的python应用程序执行环境.和模块及类一样,也使用句点属性标识来访问他们的元素.使用标准的impor

Python 基础 - Day 5 Learning Note - 模块 之 标准库:xml (9)

xml 模块介绍 和json一样,适用于不同语言及程序的数据交换的协议.但是json用起来更简单,并有代替xml的趋势. 现在多数金融数据提供方(e.g. bloombegy)还在用xml的方式. 在python中,生成和解析 XML 文件 用 导入 xml.etree.ElementTree 模块 xml文件的格式 xml的格式如下,就是通过<>节点来区别数据结构的: xml的格式 常用操作 读取xml import xml.etree.ElementTree as ET tree = ET