读《Python3 是如何解决棘手的字符编码问题的》的笔记

对于Python的编码值得注意的是不同的版本编码方式是不同的。Python3默认的是utf-8而Python2则是ASCll，因此对不同的版本对于UnicodeEncodeError和UnicodeDecodeError的处理也是不一样的！因此对于decode（）和encode（）的理解和使用也是不一样的！但是两个函数的使用原理是一样的！decode（）就是将字节解码成字符，encode（）则是相反！值得注意的是字节方便存储和网络传输，而字符用于显示。

对于Python3的编码总结：文本字符全部用 str 类型表示，str 能表示 Unicode 字符集中所有字符，而二进制字节数据用一种全新的数据类型，用 bytes 来表示。在字符引号前面就可以表示这是字节表示的对象。但是这里的局限性就是不嫩能够表示中文。

一图明了：

该python2上场的时候了：

Python2默认的是ASCLL，str表示的字节而Unicode表示的是字符。我们要把 unicode 符号保存到文件或者传输到网络就需要经过编码处理转换成 str 类型，于是 python 提供了 encode 方法，从 unicode 转换到 str。两者转换的关系如下：

注意的问题

文件的读写：

write：判断将要写入的是什么类型，如果是字节的话就直接写入，如果是字符的话那么它会先调用 encode 方法把 unicode 字符串转换成二进制形式的 str 类型，才保存到文件，而 encode 方法会使用 python 默认的 ascii 码来编码。

时间： 2024-10-06 10:41:08

读《Python3 是如何解决棘手的字符编码问题的》的笔记的相关文章

Python3 是如何解决棘手的字符编码问题的？

Python3 最重要的一项改进之一就是解决了 Python2 中字符串与字符编码遗留下来的这个大坑.本文就和大家一起来扒一扒python3是如何解决的字符编码问题,希望对大家学习python3有所帮助. Python2 字符串设计上的一些缺陷: · 使用 ASCII 码作为默认编码方式,对中文处理很不友好. · 把字符串的牵强地分为 unicode 和 str 两种类型,误导开发者当然这并不算 Bug,只要处理的时候多留心也可以避免这些坑.但在 Python3 两个问题都很好的解决了. 首先

Python3中如何解决中文乱码与编码的问题

1.解决乱码问题: pyhton中内部所有编码是Unicode,中文是gbk:正常情况下,我们输出的是utf-8: 我们可以采用sys.getdefaultencoding()查看系统默认的编码: 解决方法有如下几种: 1.在文件开头添加上:#coding:utf-8或者# -*- coding:utf-8 -*- 2.转换路径:原文件编码 ->unicode中转码 ->我们需要的编码格式 (decode()可选) ->unicode ->encode(),如果内容已经un

字符编码与JSP学习笔记

一些基本概念字符集(Character):一系列抽象字符(可以是各种国家的文字.符号.数字等等)的集合. 常见字符集名称:ASCII字符集.GB2312字符集.BIG5字符集. GB18030字符集.Unicode字符集等. 编码规则(Character Encoding):将字符集与另一类信息集合互相对应起来的法则(在这里对应的是计算机中的数字代码).每种字符集都有相应的(一个或多个)编码规则.计算机要准确的处理各种字符集文字,就需要按照相应的编码规则进行转换,以便计算机能够识别和存储各种文

Filterpost请求中文字符编码的过滤器 --学习笔记

java代码: import java.io.IOException; import java.io.PrintWriter; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; public class Lo

python字符编码文件

字符编码发展 ASCII 255 只支持英文字母和数字,特殊字符 1bytes Unicode 中文和英文统一2bytes utf-8 中文>3bytes 英文>1bytes bytes类型文本数据总是unicode由str类型表示,二进制数据则由bytes类型表示二进制数据用在视频,音频文件以及发送socket网络传输数据等字符串转成二进制 str.encode("encoding=utf-8") 二进制转

字符编码与函数基本定义

变量与常量在python中无常量一说,可写大写做提示作用,但还是可变的. 字符编码:人能识别的语言对应计算机的语言, 一一对一,参考的就是字符编码 ASCII码表 1bytes=8 bit -------->256 位字符GBK编码 2bytes代表一个字符unicode万国语言统一2 bytes代表一个字符优点:转换速度快,占用空间大内存'读'一般用unicode,但在执行阶段,可变成其他代码.UTF-8 可变长的编码英文:1bytes 中文:3bytes 转换速度慢,占用空间小

python学习笔记（集合的使用、文件操作、字符编码与转码、函数）

集合集合(set):把不同的元素组成一起形成集合,是python基本的数据类型. 集合元素(set elements):组成集合的成员为什么需要集合? 集合的作用 1 .列表去重复数据按照现有知识的解决思路:先设置空列表,然后使用for寻获,把需要去重的列表的第一个数据放到新列表中,然后依次取出第二个数据,把第二个数据和第一个数据作比较,如果不一样,则存入新列表中:以此类推,每取一次都要和新列表中的数据作对比,不一样的则添加入新列表中. 2. 关系测试比如有学员同时报了python班和l

python中的字符编码和转换

1.字符编码初识最初的字符集是ASCII,ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256-1,所以,ASCII码最多只能表示 255 个符号. 随着计算机技术的普及和发展,255个符号显然不满足全世界国家对符号数量的需求,因此各国开始发展自己的一套编码.那么针对中文: 为了

Python 2中万恶的字符编码

Python2中如果文件存在中文,必须要指定#-*- coding:utf8 -*-或#coding:utf8,否则会报错.那这是为什么呢? 我们知道,在计算机发展初期,计算机只能识别字母,数字和一些基本符号,其使用8位存储空间存储所有的内容,也就是2^8=256个不同的结果,这就是ASCII码.在当时的情况下,并没有想到日后其他语言文字的扩展,随着不断的发展,对计算机的使用越来越广泛,使用8位存储空间早已不能满足人们的日常需求,所以Unicode(万国码)就这样诞生了.顾名思义,Unicode

猜你喜欢

【温故而知新-Javascript】使用事件

1. 使用简单事件处理器可以用几种不同的方式处理事件.最直接的方式是用事件属性创建一个简单事件处理器(simple event handler).元素为它们支持的每一种事件都定义了一个事件属性.举个 ...

[MySQL] MySQL x64 下载地址

MySQL http://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.14-winx64.ziphttp://dev.mysql.com/get/D ...

Mysql连接错误：Mysql Host is blocked because of many connection errors

环境:linux,mysql5.5.31错误:Host is blocked because of many connection errors; unblock with 'mysqladmin f ...

springMVC web.xml配置文件

<?xml version="1.0" encoding="UTF-8"?><web-app version="3.0" ...

业务调整一小步,技术进一大步

对于技术方面开发,要解决一些比较复杂的问题.技术很折腾. 有个观点说,业务调整一小步,技术进一大步. 非常有同感.我记得曾经看阿里巴巴dba童家旺分享提到他们数据库方面调整时,说了一点:技术人员做得最 ...

谷歌新Logo如何做到只有305字节

谷歌换logo已经有一段时间了,对于更换Logo的问题,大家讨论的最多的是到底新老Logo哪个更好看. 但也有个别同学注意到了一个事实:谷歌的新Logo只有305字节那么大,而老的Logo则有1400 ...

其中获得一分的

多新生忍气吞声弥漫显然更为的http://weibo.com/2015_0916/p/1001603887236583182578http://weibo.com/2015_0916/p/100160 ...

struct2的structs.xml文件配置There is no Action mapped for action name 问题

很久没写过博客,今天重新开始写,新技术太多,只有通过博客才可以不断积累,本人水平有限,如有错误,欢迎指正,谢谢今天在MAVEN上配置web project的struct2,发现自己忽略了很多问题,再 ...

GCSHERTYVC

http://www.acfun.tv/a/aa3584635 http://www.acfun.tv/a/aa3584723 http://www.acfun.tv/a/aa3584809 h ...

mysql5.6.31安装及配置

1,下载安装包解压到安装位置.下载地址https://dev.mysql.com/downloads/mysql/5.6.html#downloads 2,修改默认配置文件在根目录下面有my-def ...

Tetris（俄罗斯方块）

经过调研,我们发现大家对传统的俄罗斯方块游戏已经非常厌倦了,因为它游戏模式单一,缺乏挑战性和竞技性,只能一个人玩,同时方块种类没有任何改变,都是大家很厌倦的那几种,因此我们希望在这些方面上做提高. 考 ...

APNS push server端 SSL3.0 转 TLS （iPhone苹果推送服务）

(转载此文,请说明原文出处) 苹果的官方公布 Update to the Apple Push Notification Service October 22, 2014 The Apple Push ...

《TCP/IP详解卷一》读书笔记-----DNS

1.DNS是一个分布式数据库系统用来提供主机名和IP地址之间的映射,之所以称为分布式原因的原因是因特网上没有一台主机知道这类映射的全部信息,当然也不可能做到,因为数据量实在太大了 2.应用程序通过一个 ...

《数据结构》C++代码 Splay

Splay,伸展树.之所以先写这个课内并不怎么常用的数据结构,是因为本人非常喜欢Splay,我觉得这是非常有美感且灵活的一种平衡树.在此先声明,我的伸展树写法来源于CLJ大牛,基础好的同 ...

DOTNETBAR的使用方法（转）

DOTNETBAR的使用方法 2012-03-22 00:03:22| 分类: 各种控件|举报|字号订阅这里都是我自从去年开始用dotnetbar这个vs上的美化控件之后的一些使用心得和使用技巧 ...

jmeter解决响应乱码

打开apache-jmeter-2.11\bin\jmeter.properties文件,搜索"encoding"关键字,找到如下配置: # The encoding to be ...

Cython 一篇通

Cython的类型 1 类型定义 1.1 定义一个C变量: 1.1.1 在Cython里定义一个C变量和C语言类似,不同的地方就是在声明的最前面要加上cdef,另外,末尾不用加分号";&qu ...

as3 AIR 添加或删除ApplicationDirectory目录下文件

AIR的文件目录静态类型有五种: File.userDirectory //指向用户文件夹 File.documentsDirectory //指向用户文档文件夹 File.desktopDirect ...

【swift_1】swift基本语法及事例Demo

语法类的文档网上比较多,我这里参考:Swift基本语法事例Demo:链接:http://download.csdn.net/download/riven_wn/9401928 语法须知 2个不需要 ...

开启关闭keditor 过滤

filterMode: false, K.create('#txt_content', { uploadJson: '/js/kindeditor-4.1.10/upload_json.ashx', ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.