python蛋疼的编码decode、encode、unicode、str、byte的问题都在这了

　　相信很多人和我一样，被python蛋疼的编码问题纠缠不清，比如下面的

　　私以为出现这种错误的原因还是对一些基本的编解码概念不够熟悉，下面就说说我的理解：

　　首先python刚出来的时候unicode还没有一统江湖，期间很多代码和程序压根就是直接用ascii编码，反正代码都是英文写的，而且当时那个年代写代码一般都是说英文的，那就无所谓啦，人家用的爽才不care那么多，后来互联网开始兴起，全球各个地方的人都需要了，中国这边的话自己搞了套gbk（gb2312）编码，同时该编码包含了ascii，毕竟ascii就那么1个byte8bit的编码，随便都能包含进去了，后来unicode一统江湖后，才算解决了编码问题，但是很多应用软件和编程语言诞生年代久远，所以遗留了一些编码问题，这也就是为什么python、mysql等等常出现编码问题的原因了。

　　python2中默认不指定的情况下使用的编码是ascii编码！！！

　　首先 “str” 本质上是字符串，用print直接打印出来人类可读，byte本质是字节，用8位0和1的序列来表示的，为机器可读。

由于python2默认的encoding是ascii 所以很明显，当一个中文的unicode想encode的时候就会出现中文无法用ascii编码的的错误，毕竟ascii只是unicode的一个子集。

反之也是

时间： 2024-08-06 15:34:57

python蛋疼的编码decode、encode、unicode、str、byte的问题都在这了的相关文章

编码 decode & encode

import sys # python3 中字符编码默认为 utf-8 s = '你好' print(s) # utf-8 转为 gbk (s 默认为 unicode 所以可以直接 encode 成 gbk) s_to_gbk = s.encode('gbk') print('gbk', s_to_gbk) print('default', s.encode()) print('bytes type', type(s)) print('system default', sys.getdefaul

python基础字符编码转换

python2 1 #python2上所有的字符编码都需要先decode到unicode,再从unicode encode到目标编码 2 str_utf8 = "我就是我" 3 print("str_utf-8:我就是我:",str_utf8) 4 #将utf-8转换为unicode 5 str_utf8_to_unicode = str_utf8.decode("utf-8") 6 print(str_utf8_to_unicode) 7 #将

Python编码介绍——encode和decode

在 python 源代码文件中,如果你有用到非ASCII字符,则需要在文件头部进行字符编码的声明,声明如下: # code: UTF-8 因为python 只检查 #.coding 和编码字符串,所以你可能回见到下面的声明方式,这是有些人为了美观等原因才这样写的: #-*- coding: UTF-8 -*- 常见编码介绍: GB2312编码:适用于汉字处理.汉字通信等系统之间的信息交换 GBK编码:是汉字编码标准之一,是在 GB2312-80 标准基础上的内码扩展规范,使用了双字节编码 ASC

Python字符串的编码与解码(encode与decode)

字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码.

Python乱码，编码，repr，encode，decode探究

#encoding:utf-8 #用命令行执行 s = '百度' print s # 输出环境为gbk,编码为utf-8,输出乱码 print s.decode('utf-8') # => 发现输出环境为gbk,自动转换 print s.decode('utf-8').encode('utf-8') # 输出环境为gbk,编码为utf-8,输出乱码 print s.decode('utf-8').encode('gbk') # 输出环境为gbk,编码为gbk,正常输出 # s = 0xF2193

python中的编码问题：以ascii和unicode为主线

1.unicode.gbk.gb2312.utf-8的关系 http://www.pythonclub.org/python-basic/encode-detail 这篇文章写的比较好,utf-8是unicode的一种实现方式,unicode.gbk.gb2312是编码字符集: 2.python中的中文编码问题 2.1 .py文件中的编码 Python 默认脚本文件都是 ANSCII 编码的,当文件中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正. 一个mo

python3中的encode、decode、unicode的使用以及unicode-escaped的使用

在python中,unicode(统一码采用双字节对字符进行编码)是内存编码集,一般我们将数据存储到文件时,需要将数据先编码(encode)为其他编码集,比如utf-8.gbk等. 读取数据的时候再通过同样的编码集进行解码(decode)即可. unicode-escape编码集,它是将unicode内存编码值直接存储: 原文地址:https://www.cnblogs.com/0901-hcx/p/11374507.html

python之----------字符编码具体原理

1.内存和硬盘都是用来存储的. CPU:速度快硬盘:永久保存 2.文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就可以启动一个进程,是在内存中的,所以在编辑器编写的内容也都是存放在内存中的,断电后数据就丢失了.因而需要保存在硬盘上,点击保存按钮或快捷键,就把内存中的数据保存到了硬盘上.在这一点上,我们编写的py文件(没有执行时),跟编写的其他文件没有什么区别,都只是编写一堆字符而已. 3.python解释器执行py文件的原理,例如python test.

python 处理字符编码问题

今天好不容易重新开始写Python做实验,结果被字符编码虐的体无完肤.其实之前就已经比较清楚python处理字符编码的套路,但是今天白天反复的出现can't encode/decode ..., the original code not in 178之类的提示,甚是无力,后来偶尔使用了一下sys.setdefaultencoding('utf8')就解决了全部问题,真是不解. 下面还是总结一下Python几个编码设置的含义吧. 1. #coding=utf8 这种形式的注释告诉解释器,应该以c

猜你喜欢

把多个js函数绑定到onload时间处理函数上

js的window.onload=function();网页加载完毕时会触发一个onload事件,这个事件与window对象相关联,是让一个函数在网页加载完毕之后得到执行.但是如果有两个韩式first ...

HDU 5375 Gray code

题意:给出一个二进制数,其中有些位的数字不确定,对于所有对应的格雷码,与一个序列a对应,第i位数字为1时得分a[i],求最大的得分. 解法:一个二进制数x对应的格雷码为x ^ (x >> ...

python代码格式规范

目前的规范基于pep-0008 基本格式缩进使用4个空格进行缩进行宽每行代码尽量不超过80个字符理由: 这在查看side-by-side的diff时很有帮助方便在控制台下查看代码太长可能 ...

nodejs更新遇到的问题

突然发现Nodejs已经发布到7.6了,我还在用着4.4.. 赶紧更新一下 1. 更新npm库,这一步可以忽略 npm update –g 2. 更新Nodejs,安装n模块,n模块是专门用来管理no ...

http协议请求规则与dotNet的解析

请求方法URI协议/版本请求的第一行是"方法URL议/版本":GET/sample.jsp HTTP/1.1 以上代码中"GET"代表请求方法,"/ ...

java程序在一个电脑上只启动一次，只开一个进程

方案1: 单进程程序可以用端口绑定.程序启动的时候可以尝试看该端口是否已经被占用,如果占用则程序已经启动. 方案2:你可以在java程序中创建一个隐藏文件,程序退出的时候删除这个文件.这样在程序启动的 ...

day04 javascript Dom

1.案例一:在末尾添加节点第一步:获取到ul标签第二步:创建li标签 document.createElement("标签名称")方法第三步:创建文 ...

1.using指令.using + 命名空间名字.命名空间名字可以是系统本有,也可是自己定义的class. 2.using别名.using + 别名 = 包括详细命名空间信息的具体的类型. 达成条件: ...

windows系统之WSUS服务器：更改WSUS更新文件的路径

wsus补丁硬盘空间不够 wsus补丁硬盘空间不够.我部署了WSUS服务器,使用正常,现在由于补丁下载的硬盘空间不够了,我想把补丁下载的路径改到一个比较大的硬盘上,该怎么操作? 当磁盘不足的时候,如果 ...

HTML5窗口间同域和跨域的通信

一丶同域下的 1.如果我们要操作iframe里面的元素,首先获取到引入的页面的window.获取iframe里面的window对象. var oIframe=getElementsByTagName( ...

java去除重复的字符串和移除不想要的字符串

在java开发中碰到了有些字符串是重复的,如果在进行业务处理要全部遍历太对的数据就会重复,所以在进行业务处理前进行一个去重操作. 这里由于业务需要所以先将字符串转化为string数组,使用split分 ...

解决SecureCRT中文乱码解决方法--字符集设置(Linux环境)

转载请注明出处:http://blog.csdn.net/guoyjoe/article/details/44964897 我们经常使用SecureCRT工具,但有时会碰到乱码,看到这些会非常痛苦,如 ...

元首的愤怒 SharePoint Apps

柏林数据中心的服务器机架已经插满.CPU 100%.电力基础设施处在崩溃的边缘,但当元首决定迁移到 Office 365 的时候,将军们却告诉他那里没有 Farm Solution,5 年多的投资将付 ...

代码查错

修改: interface Playable { void play();}interface Bounceable { void play();}interface Rollable exten ...

SSL证书安装后，浏览器地址栏小锁有警告信息

给网站安装 SSL 证书之后,可以用 https 形式访问,但浏览器地址栏那标志网站被加密的那个小锁出现黄色警告小三角,点开小锁,发现提示信息如: 此页面中包含其他不安全的资源,他人能在传说过程中查看 ...

数组名作为函数参数（求学生平均成绩）

除了可以用数组元素作为函数参数外,还可以用数组名作为函数参数(包括实参和形参)应当注意的是:用数组元素作为实参时传递的是数组元素的值,而用数组名作为函数的实参,向形参(函数名或指针变量)传递的是数组首 ...

android 之菜单

android的菜单主要分三类:选项菜单(Options Menu).上下文菜单(Context Menu).子菜单(Submenu). 1 选项菜单和子菜单一个Menu对象代表一个菜单,Menu中 ...

常用sql 分页语句(Oracle)

常用的Oracle查询语句 1.无ORDER BY排序的写法.(效率最高) 经过测试,此方法成本最低,只嵌套一层,速度最快!即使查询的数据量再大,也几乎不受影响,速度依然! sql语句如下: SELE ...

Python2.7的安装

>登录python官网下载python2.7的相关版本 python官网链接 >根据平台选择相应的版本 >下载完毕后点击安装即可 >配置环境变量 >安装成功

css3学习系列之初识 transform (一)

一.transform是哈? 从字面意思来看 transform的含义是:改变,使…变形:转换,对没错就是变形变形当有放大缩小东倒西歪,刚好css3中 transform 也出这个放几个 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.