一篇文章助你理解Python2中字符串编码问题

前几天给大家介绍了unicode编码和utf-8编码的理论知识，没来得及上车的小伙伴们可以戳这篇文章：浅谈unicode编码和utf-8编码的关系。下面在Python2环境中进行代码演示，分别Windows和Linux操作系统下进行演示，以加深对字符串编码的理解。

1、首先在Windows操作系统下的Python2环境中进行演示，我们都知道Python2中的编码问题经常出现，需要通过编码（encode）和解码（decode）进行实现。通过cmd进入命令行窗口，然后输入两个字符串’abc’和u’abc’，如下图所示。需要注意的是这两个字符串的编码格式是不一样的，前者是string，后者是unicode。接下来对其进行编码，指定编码为utf-8，可以发现两个都正常显示，没有报错。

当字符串变为中文的时候，尔后对其再次进行编码演示的时候，如下图所示，可以看到前者有报错产生，而后者没有报错。这个报错在Python2中经常出现，所以需要特别注意，Python字符串在内存中它是通过unicode来进行编码的。此时定义的str1它传递过来的是utf-8编码，非unicode编码，使用encode()函数的前提是待转换的字符串编码为unicode编码。所以可以看到str1会报错，而str2并没有报错。在Windows下字符串的编码格式是GB2312编码，在Linux下字符串的编码格式是utf-8编码。如果想要将str1顺利的转换为utf-8编码的话，则需要先将str1进行解码成unicode编码，再进行编码即可，此时得到的结果同str2转换的结果是一致的。

2、现在在Linux操作系统下的Python2环境中进行演示，使用一样的字符串，结果最后是一样的，但是过程有些不同，如下图所示。

在Windows下字符串的编码格式是GB2312编码，在Linux下字符串的编码格式是utf-8编码。所以当输入有中文的字符串的时候，直接编码为utf-8会报错；通过gb2312编码进行解码也会报错。只要通过utf-8编码进行解码，然后再通过utf-8进行编码才可以正确的输出结果。
有个地方大家可能会觉得很奇怪，就是一开始str1.encode(‘utf-8’)，表面上看上去str1已经是unicode编码了，之后进行编码，按说没有什么问题，可是为什么还是会报错呢？其实主要原因还是在于str1并不是真正的解码成了unicode格式。其实str1.encode(‘utf-8’)，它默认的会进行一步解码，但是其decode()的过程调用的是默认的编码格式，而这个默认的编码格式却是ASCII编码，如下图所示。

当中文字符串使用ASCII编码进行解码之后，本身就报错了，后边的encode(‘utf-8’)根本就没有执行到。
关于Python2中字符串编码的问题，就先介绍到这里了，相信大家应该有了一个初步的认识了，下一篇文章将介绍Python3中字符串编码的问题。

原文地址：https://www.cnblogs.com/dcpeng/p/10100304.html

时间： 2024-08-13 09:19:46

一篇文章助你理解Python2中字符串编码问题的相关文章

一篇文章助你理解Python3中字符串编码问题

前几天给大家介绍了unicode编码和utf-8编码的理论知识,以及Python2中字符串编码问题,没来得及上车的小伙伴们可以戳这篇文章:浅谈unicode编码和utf-8编码的关系和一篇文章助你理解Python2中字符串编码问题.下面在Python3环境中进行代码演示,分别Windows和Linux操作系统下进行演示,以加深对字符串编码的理解. 在Python2的Python文件的文件头往往会声明字符的编码格式,通过会使用代码"#-*- coding -*-"作为编码声明,如下图所示

php中字符串编码

php中抓取网页拼接url的时候经常需要进行编码,这时候就用到两个函数 mb_detect_encoding - 检测字符的编码. mb_convert_encoding - 转换字符的编码 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 <?php /* 使用当前的 detect_order 来检测字符编码 */ echo mb_detect_encoding($str); /* "auto" 将根据 mbstring.language 来扩展

【转载】Perl中字符串编码的处理

在 Perl看来, 字符串只有两种形式. 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string. 也就是说: Perl只熟悉两种编码: Ascii(octets)和utf8(string). utf8 flag在perl内部, 字符串结构由两部分组成: 数据和utf8 flag. 比如字符串"中国"在perl内部的存储是这样:utf8 flag 数据On 中国假如utf8 flag是On的话, perl就会把中国当成

python中字符串编码转换

字符串编码转换程序员最苦逼的地方,什么乱码之类的几乎都是由汉字引起的. 其实编码问题很好搞定,只要记住一点: 任何平台的任何编码,都能和Unicode互相转换. UTF-8与GBK互相转换,那就先把UTF-8转换成Unicode,再从Unicode转换成GBK,反之同理. 注意:在python3中encode,在转码的同时还会把string 变成bytes类型,decode在解码的同时还会把bytes变回string # 这是一个 UTF-8 编码的字符串 utf8Str = "你好地球&quo

一篇文章带你了解JavaScript中的基础算法之“字符串类”

作者 | Jeskson 来源 | 达达前端小酒馆 1 算法可以干什么呢?提高什么?有什么好处呢? 前端的同学需要提升编程核心内功,建立和健全算法知识体系,基础算法.数据结构.进阶算法,由浅入深讲解,透彻理解抽象算法,算法面试是关键一环,冲击大厂前端offer. 学习算法前掌握ES6哦!需要掌握单元测试的语言,Jest Jest is a delightful JavaScript Testing Framework with a focus on simplicity. It works wi

一篇文章助你深入理解zookeeper

Zookeeper作为一个分布式协调系统提供了一项基本服务:分布式锁服务,分布式锁是分布式协调技术实现的核心内容.像配置管理.任务分发.组服务.分布式消息队列.分布式通知/协调等,这些应用实际上都是基于这项基础服务由用户自己摸索出来的. 1.Zookeeper在大数据系统中的常见应用 zookeeper作为分布式协调系统在大数据领域非常常用,它是一个很好的中心化管理工具.下面举几个常见的应用场景. 1.1.HDFS/YARN HA(分布式锁的应用):Master挂掉之后迅速切换到slave节点.

一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

在前面几篇文章中我们已经学会了如何了编写Spider去获取网页上所有的文章链接及其对应的网页目标信息.在这篇文章中,我们将主要介绍Scrapy中的Item. 在介绍Item之前,我们需要知道明确一点,网络爬虫的主要目标就是需要从非结构化的数据源中提取出结构化的数据,在提取出结构化的数据之后,怎么将这些数据进行返回呢?最简单的一种方式就是将这些字段放到一个字典当中来,然后通过字典返回给Scrapy.虽然字典很好用,但是字典缺少一些结构性的东西,比方说我们容易敲错字段的名字,容易导致出错,比方说我们

一篇文章带你了解JavaScript中的函数表达式，递归，闭包，变量，this对象，模块作用域

作者 | Jeskson 来源 | 达达前端小酒馆定义函数的方式: 第一种为函数声明: 第二种为函数表达式. 语法: function functionName(arg0, arg1, arg2) { // 函数体 } 在Firefox,Safari,Chrome和Opera有效: 就是通过这个属性可以访问到这个函数指定的名字. console.log(functionName.name); // 'functionName' 函数声明: 它的一个重要特点就是:函数声明提升,就是在执行代码

一篇文章带你了解JavaScript中的语法，数据类型，流程控制语句以及函数

作者 | Jeskson 来源 | 达达前端小酒馆 1 JavaScript有多重要啊,才能让我说说一下,其中的语法,操作符,数据类型,内置功能等. 语法: 在JavaScript中的变量,函数名和操作符都是区分大小写的,所以变量名Da和变量名da分别为两个不同的变量. 标识符: 什么是标识符?它是指变量,函数,属性的名称,以及函数的参数. 标识符的规则: 一:第一个字符必须是,一个字母,下划线,或者是,一个美元符号二:后面的字符,可以是字母,下划线,或是数字. 在JavaScript中标识符

猜你喜欢

javaWeb四大域对象

1)和属性相关的方法 Object getAttribute(String name) 获取指定的属性 Enumeration getAttributeNames() 获取所有的属性的名字组成的Enu ...

DICOM：剖析Orthanc中的Web Server，Mongoose之“连接请求触发的事件序列”（二）

背景: Orthanc是本专栏中介绍过的一款新型DICOM服务器,具有轻量级.支持REST的特性,可将任意运行Windows和Linux系统的计算机变成DICOM服务器,即miniPACS.Ortha ...

如何阅读一本书

如何阅读一本书很喜欢看书,所以看了<如何阅读一本书>,这本书是由教育家莫提默*J.艾德勒编写的一本名作.就像作者所说的大多数大学生阅读方法欠佳,花了时间读完一本书却仍然不知所云,目前教育 ...

ini_set('memory_limit', '128M')、php.ini memory_limit引起的问题详细介绍

故障现象在运行PHP程序,通常会遇到"Fatal Error: Allowed memory size of xxxxxx bytes exhausted"的错误, 这个意味着P ...

Cookie Session区别

1. cookie机制采用的是在客户端保持状态的方案,而session机制采用的是在服务器端保持状态的方案. 2. 由于采用服务器端保持状态的方案在客户端也需要保存一个标识,所以session机制可能 ...

ThinkPHP添加扩展配置失败

扩展配置可以支持自动加载额外的自定义配置文件,并且配置格式和项目配置一样.设置扩展配置的方式如下(多个文件用逗号分隔): // 加载扩展配置文件 'LOAD_EXT_CONFIG' => 'us ...

Js 和 Java , C等语言不是很一样 . 其他语言有类和实例但是Js就比较特殊 , 所以类和实例只能说是大多数面向对象编程的语言的基本概念 . Js比较特殊 , 它不去分类和实例的概念 ...

hdu 4763 Theme Section （简单KMP）

Theme Section Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) To ...

知晓当前活动

实验名称:知晓当前活动实验现象:没当进入一个活动,打印当前活动名称步骤: 1.新建一个项目,创建3个可互相切换的活动第一个活动,依次类推 @Override protected void onC ...

奇妙的思维才能迸发出创新的火花来

http://www.acfun.tv/a/aa3910624 http://www.acfun.tv/a/aa3910756 http://www.acfun.tv/a/aa3910918 h ...

Linux好用的命令语句

watch监測一个命令的执行结果: watch -n 1 -d "ps aux|grep OY_WeiBo_Server |grep -v grep " //-n指定秒数刷新,-d ...

django values(*field) 使用

这个方法返回的是ValuesQuerySet,是QuerySet 的子类,也就是说,你可以用QuerySet里的方法. 需要注意的是,返回的不是list,不要直接当list来用了.对ValuesQue ...

如何选择模型

数据统计分析联系:QQ:231469242 1.选择最简单模型如果不能满足: 增加参数,增加R**2 判断是否overfittiing 调整R方,BIC,AIC(选择较小BIC或AIC值) R方不能 ...

ios 将随意对象存进数据库

要将一个对象存进数据库的blob字段,最好先转为NSData.一个对象要遵守NSCoding协议,实现协议中对应的方法,才干转成NSData. NSData *statusData = [NSKeye ...

Computer Graphics - code_1

/*------------------------------------ author:XD_G location:SWUN time:09/2015~01/2016 course:Compute ...

GPIO_Remap_SWJ_JTAGDisable

对于初学习者来说为什么用到PB3和PB4时无法控制输出呢? 下面就这一问题进行分析讲解. 首先,STM32F10x系列的MCU复位后,PA13/14/15 & PB3/4默认配置为JTAG功能 ...

[Android]用ListView做IM聊天时遇到的问题

很羞愧的是,第一个有关程序的随笔就是一处我暂时无法解决并解释的问题, 先记录下来吧, 等以后弄明白了再补充. 最近在做一个android端的IMAPP, 通讯协议采用的XMPP(因为时间比较紧,并属于 ...

HDU1575--Tr A（矩阵快速幂模板）

Tr A Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Submit Status ...

厦门至阳光旅业伴我金棕榈海上度假村

阳光旅业景点知识小普及: [蓝色的小镇]萧安,一个摩洛哥北部的小镇,拥有丰富的历史,美丽的自然环境和美丽的建筑,但这个老城区最吸引人的是建筑物的醒目生动的蓝色墙壁.仿佛上帝打翻了他的蓝色颜料桶,将整个 ...

float/文档流/清除浮动

1.float:left|right|none|inherit 2.文档流是万张中显示排列时候所占的位置 3.浮动的定义:使元素脱离文档流.按照指定方向移动,遇到父级边界或者相邻的浮动元素停下来 4. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.