Python中的幽灵—编码方式

首先要搞懂本地操作系统编码与系统编码的区别：

本地操作系统编码方式与操作系统有关，Linux默认编码方式为utf-8，Windows默认编码方式为gbk；
系统编码方式与编译器or解释器有关，Python3解释器默认编码方式为unicode。
编码方式不仅仅代表编码，也包括解码，因为编码与解码是相对应的。

好了，进入正题：

字符串的encode方法会默认编码为utf8格式，gbk编码方式兼容gb2312

两个文件都出现了这样的问题
&nbsp
其中一个我们点击Reload in “GBK”进行了重载，内容正常显示了

另一个我们点击下面的GBK编码方式看看

什么意思呢，我来解释一下
Reload：从硬盘中以新的编码方式读取内容并显示在编辑器上，文件在硬盘上的编码方式不改变
Convet：将现在编辑器上的内容以新的编码方式写入硬盘，覆盖掉原先的内容，编码方式改变。
第一个文件已经选择了Reload，这个文件我们选择Convert
所以，这个文件会将Python?е????顪?????这些内容以gbk编码方式存入硬盘，结果是这样

接下来我们验证以下我们的想法

补充：
网络上的数据以字节流的方式传输，所以

要用utf-8解码才可以得到正确的字符串内容
&nbsp
当然如果想存入文件的话就需要注意啦

从文件中读取的时候可要小心啊，要以文件相应的编码方式读出，比如open函数指定encoding，或者以二进制方式读出，之后在调用str.decode()方法以指定encoding解码。

原文地址：https://www.cnblogs.com/malinqing/p/11329961.html

时间： 2024-11-05 14:50:12

Python中的幽灵—编码方式的相关文章

Python中进行Base64编码和解码

Base64编码是一种“防君子不防小人”的编码方式.广泛应用于MIME协议,作为电子邮件的传输编码,生成的编码可逆,后一两位可能有“=”,生成的编码都是ascii字符.优点:速度快,ascii字符,肉眼不可理解缺点:编码比较长,非常容易被破解,仅适用于加密非关键信息的场合Python中进行Base64编码和解码>>> import base64>>> s = '我是字符串'>>> a = base64.b64encode(s)>>>

python中执行cmd的方式

目前我使用到的python中执行cmd的方式有三种: 1. 使用os.system("cmd") 这是最简单的一种方法,特点是执行的时候程序会打出cmd在Linux上执行的信息.使用前需要import os. [python] view plain copy print? os.system("ls") 2. 使用Popen模块产生新的process 现在大部分人都喜欢使用Popen.Popen方法不会打印出cmd在linux上执行的信息.的确,Popen非常强大,

Python中的字符编码问题

初学Python,本身就在一些语句处有些迷惑,如 a = u'你好',不知加上这个Unicode参数有何作用.一直到做爬虫抓取新闻时,在cmd的输出上总是出现错误.经过检索相关知识后,对一些编码问题做个小总结,其中参杂个人猜测,难免会有错误,以后再慢慢修改了. 1.一定要声明#coding=XXX吗? 首先.py文件中,编码默认是ASCII的,一旦py文件中出现了中文类似编码,IDE就会提示也就是提示文中出现了非ASCII,建议在文件开始制定编码,当然我们常用的是#coding:utf8 (貌

python 中特殊方法简写方式

##python 中特殊方法简写方式 class Test: __call__ = lambda *args: args[1] * 2 #这里需要注意lambda的参数会默认将实例self 加进去 __str__ = lambda self: 'that`s useful...%s' % self.__class__.__name__ t = Test() print(t) print(t(10)) 原文地址:https://www.cnblogs.com/alplf123/p/1029388

python中的字符串编码问题——3.各操作系统下的不同编码方式

各操作系统下的不同编码方式先看一下 linux,python2.7 >>> B = b'\xc3\x84\xc3\xa8' >>> B.decode('utf-8') u'\xc4\xe8' >>> type(B) <type 'str'> >>> windows,python2.7,python shell >>> B = b'\xc3\x84\xc3\xa8' >>> B.d

python中Url链接编码处理（urlencode,urldecode）

做完了flask-web应用,这几天想用爬虫做个好玩的电影链接整合器,平时找电影都是在dytt或者dy2018之类的网站,在用dytt搜索电影<美国队长时>,发现他的搜索链接是这样的:http://s.dydytt.net/plus/search.php?kwtype=0&searchtype=title&keyword=%C3%C0%B9%FA%B6%D3%B3%A4 很明显就能看出来美国队长被编码成了%C3%C0%B9%FA%B6%D3%B3%A4这个,这个是url链接用的

修改MySQL数据库中表和表中字段的编码方式的方法

今天向MySQL数据库中的一张表添加含有中文的数据,可是老是出异常,检查程序并没有发现错误,无奈呀,后来重新检查这张表发现表的编码方式为latin1并且原想可以插入中文的字段的编码方式也是latin1,然后再次仔细观察控制台输出的异常,进一步确定是表和表中字段编码不当造成的,那就修改表和其中对应的字段呗,网上找了一会儿,你别说还真有,执行完sql脚本后果然可以存入中文了,尽管如此还是认为有必要总结一下,古人云:好记性不如烂笔头嘛,呵呵呵. 修改表的编码方式:ALTER TABLE `test`

JS 和 Java 中URL特殊字符编码方式

前几天遇到url特殊字符编码的问题,在这里整理一下: JavaScript 1. 编码 escape(String) 其中某些字符被替换成了十六进制的转义序列. 解码 unescape(String) 该函数的工作原理是这样的:通过找到形式为 %xx 和 %uxxxx 的字符序列(x 表示十六进制的数字),用 Unicode 字符 \u00xx 和 \uxxxx 替换这样的字符序列进行解码. *注释:ECMAScript v3 反对使用该方法,应用使用 decodeURI() 和 decode

Python中的Unicode编码和UTF-8编码

下午看廖雪峰的Python2.7教程,看到字符串和编码一节,有一点感受,结合崔庆才的Python博客 ,把这种感受记录下来: ASCII码:是用一个字节(8bit, 0-255)中的127个字母表示大小写字母,数字和一些符号.主要用来表示现代英语和西欧语言. 所以处理中文就出现问题了,因为中文处理至少需要两个字节,所以中国制定了GB2312. 所以,各国制定了各国的标准.日本制定了Shift_JIS,韩国制定了Euc-kr...那么,乱码就来了. 为了统一,Unicode诞生了.统一码把所有