python2 与python3中最大的区别(编码问题bytes&str

1,在python2.x 中是不区分bytes和str类型的,在python3中bytes和str中是区分开的,str的所有操作bytes都支持

python2 中

>>> s = "abcdefg"
>>> b = s.encode()    #或者使用下面的方式

>>> b = b"abcdefg"
>>> type(b)
<type ‘str‘>

python3中     #str和bytes是严格区分的

>>> s = "abcdefg"
>>> type(s)
<class ‘str‘>
>>> b = b"abcdefg"
>>> type(b)
<class ‘bytes‘>

str是文本系列,bytes是字节系列

文本是有编码的(UTF-8,GBK,GB2312等)

字节没有编码

文本的编码指的是字符如何使用字节来表示组织方式,linux下默认都使用UTF-8

2,bytes与str之间的转换-------编码

bytes由str通过encode方法转化得到的,str也可以通过bytes 通过decode方法转化得到

通过b前缀可以定义bytes

GBK 是双字节,UTF-8 灵活编码,1字节,2字节,3字节,4字节都有,最大支持6字节长度,中文大多数是3字节

>>> S = "我是中国人"
>>> S
‘我是中国人‘
>>> b = S.encode()     #进行编码为bytes
>>> b
b‘\xe6\x88\x91\xe6\x98\xaf\xe4\xb8\xad\xe5\x9b\xbd\xe4\xba\xba‘
>>> b.decode()    #进行解码为字符串
‘我是中国人‘
>>>

str被编码成什么格式的,就需要使用什么格式的编码进行解码

>>> S = "我是中国人"
>>> S
‘我是中国人‘
>>> b = S.encode(‘GBK‘)
>>> b
b‘\xce\xd2\xca\xc7\xd6\xd0\xb9\xfa\xc8\xcb‘
>>> b.decode(‘GBK‘)
‘我是中国人‘

可以使用bin( )将一个10进制整数或者16进制数转化为2进制

>>> bin(10)
‘0b1010‘
>>>

>>> bin(0xce)
‘0b11001110‘

3,bytes的操作

bytes具有string类型的所有操作,bytes可以通过str encode转化,也可以通过前缀b定义

>>> b = b‘abc‘
>>> b
b‘abc‘
>>> b.decode()
‘abc‘

>>> b‘abc‘.find(b‘c‘)
2

>>> len((‘我是中国人‘).encode())      #求bytes的长度
15
>>> b
b‘abc‘
>>> b.hex()   #转化为16进制
‘616263‘

>>> bin(616263)      #转化为2进制
‘0b10010110011101000111‘

除了encode外,str操作都有对应的bytes版本,但是传入的参数必须是bytes

bytearray类型

bytearray是可变的,bytes和str是不可变的,主要用于图片处理

相对bytes来说,多了insert,append,extend,pop,remove,clear,reverse等操作,并且支持索引操作

>>> S1 = "人生苦短,我学python!"
>>> S1
‘人生苦短,我学python!‘
>>> b1 = bytearray(S1.encode())
>>> b1.decode()
‘人生苦短,我学python!‘

>>> b1
bytearray(b‘\xe4\xba\xba\xe7\x94\x9f\xe8\x8b\xa6\xe7\x9f\xad\xef\xbc\x8c\xe6\x88\x91\xe5\xad\xa6python\xef\xbc\x81‘)
>>> b1[:6] = bytearray(‘生命‘.encode())
>>> S1
‘人生苦短,我学python!‘
>>> b1
bytearray(b‘\xe7\x94\x9f\xe5\x91\xbd\xe8\x8b\xa6\xe7\x9f\xad\xef\xbc\x8c\xe6\x88\x91\xe5\xad\xa6python\xef\xbc\x81‘)
>>> b1.decode()
‘生命苦短,我学python!‘
>>>

原文:https://blog.csdn.net/u010694764/article/details/53811035

原文地址:https://www.cnblogs.com/fmgao-technology/p/9054802.html

时间: 2024-12-17 23:51:19

python2 与python3中最大的区别(编码问题bytes&str的相关文章

Python2 和 Python3 中默认编码的差异

最近在使用 Python3.4 做一些脚本实现,发现对于编码的处理上和 Python2.6 有很大的不同,就此机会把相关知识做个梳理,方便需要的时候查阅. 先说下概念和差异: 脚本字符编码:就是解释器解释脚本文件时使用的编码格式,可以通过 # -\*- coding: utf-8 -\*- 显式指定解释器字符编码:解释器内部逻辑过程中对 str 类型进行处理时使用的编码格式Python2 中默认把脚步文件使用 ASCII 来处理(历史原因请 Google)Python2 中字符串除了 str 还

Python2和Python3的一些语法区别

Python2和Python3的一些语法区别 python Python2和Python3的一些语法区别 1.print 2.input 3. python3版本相对2版本的部分其他区别 问题:为何会出现乱码的情况 问题:如何获取编码方式的信息? 问题:在控制台上看到的到底是什么? 1.print 在版本2的使用方法是: print 'this is version 2 也可以是 print('this is version 2') 但到了3,就只能加上括号,像一个函数一样来使用 print:

有关python2与python3中关于除的不同

有关python2与python3中关于除的不同 python中2版本与3版本关于除的处理还是有一些差异的. 在python 2.7.15中除(/)是向下取整的,即去尾法. 123/10 # 结果 12 128/10 # 结果 12 在python 3中除(/)是相对于2版本精确了一些,例如: print(123/10) # 结果 12.3 原文地址:https://www.cnblogs.com/ZN-225/p/10574748.html

python2和python3中的编码问题

开始拾起python,准备使用python3, 造轮子的过程中遇到了编码的问题,又看了一下python3和python2相比变化的部分. 首先说个概念: unicode:在本文中表示用4byte表示的unicode编码,也是python内部使用的字符串编码方式. utf-8:在本文中指最少1byte表示的unicode编码方式 我在使用 if isinstance(key,unicode): key= key.encode('utf-8') 的时候,发现key值被转成了b'foo',b'bar'

nose在python2与python3中的包的自动发现用例的区别

最近在使用python3,同样装了nose,发现自动发现用例总是有问题,如下面的代码结婚 testcase |------ __init__.py |------ test_bb.py test_bb.py中文件为: def test_qq(): pass Python3中: 再使用nose执行testcase提示: ----------------------------------------------------------------------Ran 0 tests in 0.001

Python2和Python3中print的不同点

在Python2和Python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异 主要体现在以下几个方面: 1.python3中print是一个内置函数,有多个参数,而python2中print是一个语法结构: 2.Python2打印时可以不加括号:print 'hello world', Python3则需要加括号   print("hello world") 3.Python2中,input要求输入的字符串必须要加引号,为了避免读取非字符串类型发生的一些行为

每日一读:《关于python2和python3中的range》

官网原话是这么说的:In many ways the object returned by range() behaves as if it is a list, but in fact it isn't. It is an object which returns the successive items of the desired sequence when you iterate over it, but it doesn't really make the list, thus sav

python2与python3 字符问题以及 字符编码 内容总结

python2与python3默认编码: python2:gbk                   print( u'上' )     操作系统也是 gbk    python3:unicode print( '上' ) 字符编码转换关系: unicode -->encode (编码)-->gbk  其他形式的二进制               write gbk  其他形式的二进制 -->decode (解码)-->unicode               read 各种编码

python2和python3中的关键字的区别--keyword模块

一.python3.6中的: 共33个关键字: 通过导入keyword模块,查看python所有的关键字.在ipython中: Python 3.6.0 |Anaconda 4.3.1 (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC v.1900 64 bit (AMD64)]Type "copyright", "credits" or "license" for more information.