对python3编码那些事的小小总结

一、 了解一下编码的发展。
1、 计算机只能处理数字,如果需要处理文本,需要先将文本转换为数字。因为计算机是美国梆子发明的,所以他们发明了最早的编码--ASCII编码,也就是将他们的大小写字符数字和一些符号编码得到计算机中。比如A的编码是65。
2、 随着计算机在中国发展起来,拿ASCII去处理中文,显然是不够的,因为英文需要一个字节处理,而中文是需要两个字节。为了满足需求我们中国发明了自己的编码GB2312。将中文编进去。
3、 我们中国如此,世界上那么多语言岂不是每种语言都需要一种编码标准,如果一个文本中有多种语言,到时候产生的结果就是出现乱码。
4、 为顺应发展,比较叼的Unicode编码出生了,这个东西将所有的语言都统一到一套编码中。这样就不会再出现乱码的问题。虽然这个东西够强大,但是却有一个不能小觑的缺点。相比于ASCII编码要多出一倍的储存空间。例如:A ascii:65 二进制:01000001 unicode:00000000 01000001
5、 所以秉承着节约的原则,UTF-8应运而生,好处编码可变长。例如A的UTF-8:01000001,可以将unicode编码中的前面的零节约掉。
二、 在计算机 系统中通用编码的工作方式
1、 当我们编辑文档的时候,读取文档内容将UTF-8字符转换为unicode字符到内存中。因为这里需要显示,为了避免乱码,使用通用的Unicode编码。
2、 当编码编辑完成后,再将Unicode的编码转换为UTF-8保存到文件中。因为这里是需要存入磁盘中的,为节约储存空间,使用可变编码长度的UTF-8编码。
三、 python3字符编码
python的字符串类型是str,在内存中以Unicode表示。
1、 如果需要在网络上传输,或者保存到存储设备上,就需要将str变成以字节为单位的bytes。可以使用encode()方法。通过第一大点的了解,我们知道Unicode表示的str可以通过ASCII和utf-8编码转换。但是转换中文的时候,一定使用utf-8,因为含有中文的str无法用ASCII编码,超出了ASCII编码的范围。例如:

2、 如果我们从网络上或磁盘上读取数据,就是将bytes变为str。可以使用decode()方法。

通过上述了解,可以看出,utf-8编码,不管是读取数据,还是传输数据都不会出错,所以很多情况下utf-8使用的更为广泛一些。

四、 解析我实际遇到的问题
使用socket模块编写通信的脚本,原服务端:

#!/usr/bin/python3
import socket

s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
s.bind((‘‘,6000))
s.listen(1)
client,addr=s.accept()
print ("Connected by",addr)
client.send("welcome")
text=client.recv(1024)
print(text)
client.close()
s.close()

原客户端:

#!/usr/bin/python3
import socket

c=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
c.connect(("192.168.80.128",6000))
ans=c.recv(1024)
print(ans)
c.send("hello")
c.close()

执行结果

send()方法用来传递数据,将hello传递给服务端。
错误提示需要将str类型的字符串转换为bytes。在我们传递数据的时候应该先将str转换为bytes类型的数据方可。使用encode(‘utf-8’)或encode(‘ascii’);同时服务端的send()方法传递的数据也应该转换一下。
服务端修改代码:

client.send("welcome".encode(‘utf-8‘))

客户端修改代码:

c.send("hello".encode(‘utf-8‘))

修改后执行结果:


执行成功。
执行过程中,str被转换为bytes传递给对方。因为这里传递的是字母,内容上看不出是bytes,但是字符串前有个字母b,表示bytes。如果传递的是中文:

因为我们将str转换为了bytes。所以当我们接受数据的时候,应当将bytes转换为str
服务端修改代码:
text=client.recv(1024).decode(‘utf-8‘)
客户端修改代码:
ans=c.recv(1024).decode(‘utf-8‘)
执行结果:

总结完毕!!!

原文地址:http://blog.51cto.com/12332766/2176929

时间: 2024-08-06 08:41:20

对python3编码那些事的小小总结的相关文章

python3编码问题

继续收集python3编码问题相关资料 资料来源  鹏程的新浪博客(转载)http://blog.sina.com.cn/s/blog_6d7cf9e50102vo90.html  这篇鹏程老师写的关于python3的编码的博客写的特别的清楚,直接就摘入下来.供自己作为参考. 1.从字节说起: 一个字节包括八个比特位,每个比特位表示0或1,一个字节即可表示从00000000到11111111共2^8=256个数字.一个ASCII编码使用一个字节(除去字节的最高位作为作奇偶校验位),ASCII编码

python2和python3编码

python2编码 unicode:unicode 你好 u'\u4f60\u597d' | | | | encode('utf8')| |decode('utf8') encode('gbk')| |decode('gbk') | |   | | utf8    gbk编码后的str '\xe4\xbd\xa0\xe5\xa5\xbd'     编码后的gbk u'\u6d63\u72b2\u30bd' # str: bytes >>> s = '你好 world' >>&

4.python2与python3编码区别,以及字符串与字节的相互转换及其socket编程应用场景

知识点剖析 1.python2与python3的某些区别 其实一直想写这篇博客,实则在socket编程中,字符串,字节(byte),和bit流把我弄得晕头转向.确实这也是python3与python2的区别所在.我想在12期的时候,刚从python2转到python3的沛齐与Alex老师也是十分头疼,最近几天查看了相关资料与视频,才恍然大悟. 首先我们看一下下面的实例: 原因:在python2.7中,for循环遇到汉字,依然会按照字节进行循环,那么3个字节才能组成的汉字,单个输出只能时乱码. 解

[转载]Python3编码问题详解

原文:Python3的编码问题 Python3 最重要的一项改进之一就是解决了 Python2 中字符串与字符编码遗留下来的这个大坑.Python 编码为什么那么蛋疼?已经介绍过 Python2 字符串设计上的一些缺陷: 使用 ASCII 码作为默认编码方式,对中文处理很不友好. 把字符串的牵强地分为 unicode 和 str 两种类型,误导开发者 在Python3中,从sys中可以看出使用的默认编码 >>> import sys >>> sys.getdefault

从python2,python3编码问题引伸出的通用编码原理解释

今天使用python2编码时遇到这样一条异常UnicodeDecodeError: ‘ascii’ code can’t decode byte 0xef 发现是编码问题,但是平常在python3中几乎没有遇到过,所以特意查了资料,原来python3和python2对于字符串的理解不一样,在python3中,字符串默认unicode编码 一.解释python2和python3文本处理方式 在Python3当中,文本字符串类型(使用Unicode数据存储)被命名为 str , 字节字符串类型被命名

正文内容 python3编码问题

来源:http://www.jb51.net/article/92006.htm 以下是全文: 这两天写了个监测网页的爬虫,作用是跟踪一个网页的变化,但运行了一晚出现了一个问题....希望大家不吝赐教!我用的是python3,错误在对html response的decode时抛出,代码原样为: response = urllib.urlopen(dsturl) content = response.read().decode('utf-8') 抛出错误为 File "./unxingCrawle

day07 python2与python3 编码

详细文章: http://www.cnblogs.com/yuanchenqi/articles/5956943.html http://www.diveintopython3.net/strings.html 需知: 1.在python2默认编码是ASCII, python3里默认是unicode 2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), so utf-16就是现在最常用的unicode版本, 不过在文件里存的还是utf-

python2和python3编码解码详解

今天让我们一起彻底揭开py编码的真相,包括py2和py3.有同学可能问:以后py3是大势所趋,还有必要了解py2那令人头疼的编码吗?答案是太有必要啦.py2在生产中还是中流砥柱. 什么是编码? 基本概念很简单.首先,我们从一段信息即消息说起,消息以人类可以理解.易懂的表示存在.我打算将这种表示称为"明文"(plain text).对于说英语的人,纸张上打印的或屏幕上显示的英文单词都算作明文. 其次,我们需要能将明文表示的消息转成另外某种表示,我们还需要能将编码文本转回成明文.从明文到编

python2与python3编码

#coding:utf8#一#1.在python2中,默认以ASCII编码chcp 936import sysprint sys.getdefaultencoding()# ascii#str:bytess1='来星hello' #存的是字节,数据类型是str(bytes就是str)# print len(s1)# 9# print repr(s1) # '\xe8\xa2\x81\x16\xb5\x5ahello'#2.unicodes2=u'来童星hello'# 存的unicodeprint