由 Python2 和 Python3 中 socket.inet_aton() 实现不同引发的血案

这几天在做一个功能实现的时候，需要把别人用 Python2.6 写好的脚步转成 Python3.4 实现，大部分地方转化都没啥问题，但是在 socket.inet_aton() 转化的过程中出了点问题，花费我不少的精力去解决，先做个记录备忘，同时给后续需要的人做个提醒。

首先说一下，我在解决这个问题前期的思路有点问题，所以请关注最后的总结。

需求目的：把一个 ip 地址使用 socket.inet_aton() 转化后和一个字符串组合，然后算出 MD5。

下面是 Python2.6 的实现代码：

#!python2
# -*- coding: utf-8 -*-

import socket
import hashlib

if __name__ == ‘__main__‘:
    ip = ‘192.168.1.12‘
    base_str = ‘testSTR‘
    ip_md5 = hashlib.md5(socket.inet_aton(ip) + base_str).digest().encode(‘hex‘)
    print(ip_md5)

运行后的输出结果为：

fc138bb4748a18f885cc321c2c6396e2

如果原封不动的使用 Python3.4 运行后，报错如下：

Traceback (most recent call last):
  File "socket34.py", line 25, in <module>
    test1()
  File "socket34.py", line 10, in test1
    ip_md5 = hashlib.md5(socket.inet_aton(ip) + base_str).digest().encode(‘hex‘)
TypeError: can‘t concat bytes to str

提示说的是，socket.inet_aton(ip) 的返回值是 bytes 类型，所以不能和 str 类型的 base_str 直接进行连接操作。
也就是说 Python2.6 和 python3.4 中对于 socket.inet_aton(ip) 的实现是有差异的，查官方文档吧。
python2.6文档说明：

socket.inet_aton(ip_string)
Convert an IPv4 address from dotted-quad string format (for example, ‘123.45.67.89’) to 32-bit packed binary format, as a bytes object four characters in length.

python3.4 文档说明：

socket.inet_aton(ip_string)
Convert an IPv4 address from dotted-quad string format (for example, ‘123.45.67.89’) to 32-bit packed binary format, as a string four characters in length.

好吧，返回值类型不同，为了保证和原脚本逻辑一致，我就做个转化，把 bytes 主动转换为 str 类型再连接，修改后的代码如下：

#!python3
# -*- coding: utf-8 -*-

import socket
import hashlib

if __name__ == ‘__main__‘:
    ip = ‘192.168.1.12‘
    base_str = ‘testSTR‘
    str_md5 = socket.inet_aton(ip).decode(‘gbk‘) + base_str
    ip_md5 = hashlib.md5(str_md5).digest().encode(‘hex‘)
    print(ip_md5)

代码通过 decode 把 bytes 使用 gbk 的方式解码成 str，至于为什么用 gbk，是因为我对比了下，只有 gbk 编码方式解码后的输出才和 python2.6 中的 str 返回值结果一致。

行，赶紧运行一把试试看。。。还是报错了，这次的报错内容变了：

Traceback (most recent call last):
  File "socket34.py", line 34, in <module>
    test1()
  File "socket34.py", line 12, in test1
    ip_md5 = hashlib.md5(str_md5).digest().encode(‘hex‘)
TypeError: Unicode-objects must be encoded before hashing

看起来 hashlib.md5() 在 Python2.6 和 Python3.4 中的实现也有差异，继续看文档。
python2.6文档说明：

You can now feed this object with arbitrary strings using the update() method.

python3.4 文档说明：

You can now feed this object with bytes-like objects (normally bytes) using the update() method.

依然是编码格式的问题，Python2.6 中参数传入的是 str，但是 Python3.4 中参数需要传入 bytes，那就继续转码吧。
再次转码后的代码如下：

#!python3
# -*- coding: utf-8 -*-

import socket
import hashlib

if __name__ == ‘__main__‘:
    ip = ‘192.168.1.12‘
    base_str = ‘testSTR‘
    str_md5 = socket.inet_aton(ip).decode(‘gbk‘) + base_str
    ip_md5 = hashlib.md5(str_md5.encode(‘gbk‘)).digest().encode(‘hex‘)
    print(ip_md5)

运行后再次报错：

Traceback (most recent call last):
  File "socket34.py", line 33, in <module>
    test1()
  File "socket34.py", line 11, in test1
    ip_md5 = hashlib.md5(str_md5.encode(‘gbk‘)).digest().encode(‘hex‘)
AttributeError: ‘bytes‘ object has no attribute ‘encode‘

好吧，继续看文档。
python2.6文档说明：

hash.digest()
Return the digest of the strings passed to the update() method so far. This is a string of digest_size bytes which may contain non-ASCII characters, including null bytes.

python3.4 文档说明：

hash.digest()
Return the digest of the data passed to the update() method so far. This is a bytes object of size digest_size which may contain bytes in the whole range from 0 to 255.

这次更严重，encode() 直接用不了，换方法吧，更新后的代码如下：

#!python3
# -*- coding: utf-8 -*-

import socket
import hashlib
import binascii

if __name__ == ‘__main__‘:
    ip = ‘192.168.1.12‘
    base_str = ‘testSTR‘
    str_md5 = socket.inet_aton(ip).decode(‘gbk‘) + base_str
    ip_md5 = binascii.hexlify(hashlib.md5(str_md5.encode(‘gbk‘)).digest()).decode()
    print(ip_md5)

运行后的输出结果：

fc138bb4748a18f885cc321c2c6396e2

终于得到了最终结果，激动，不过再回头一看，如果知道这几个函数的使用方式的话，就不需要 decode() 然后又 encode()，比如稍微优化后的代码如下：

#!python3
# -*- coding: utf-8 -*-

import socket
import hashlib
import binascii

if __name__ == ‘__main__‘:
    ip = ‘192.168.1.12‘
    base_str = ‘testSTR‘
    str_md5 = socket.inet_aton(ip) + base_str.encode()
    ip_md5 = binascii.hexlify(hashlib.md5(str_md5).digest()).decode()
    print(ip_md5)

总结：

Python3 新增了 bytes 类型，对于 bytes 的转换逻辑要特别清楚，这地方涉及了编码类型，要特别关注；
在使用一些函数前，一定要搞清楚这个函数的具体实现，必须清楚的知道使用了这个函数是什么效果，而不仅仅是看到暂时的效果，或者经验主义的去调用(上面例子的最后一步，其实我一开始不是用的 binascii，而是用的现成的 md5 转换函数，导致 encode() 成了 utf-8 格式，而浪费了不少时间去定位)；
解决问题过程中，思路一定要清晰，不能靠猜，越猜越错；
先弄明白问题的根本原因，直接从根源上去解决，比一步步的就错解错，效果更好。

原文地址：http://blog.51cto.com/sylan215/2141208

时间： 2024-10-30 00:59:33

由 Python2 和 Python3 中 socket.inet_aton() 实现不同引发的血案

由 Python2 和 Python3 中 socket.inet_aton() 实现不同引发的血案的相关文章

有关python2与python3中关于除的不同

python2和python3中的编码问题

python3中socket套接字的编码问题解决

Python2和Python3中print的不同点

每日一读:《关于python2和python3中的range》

Python2 和 Python3 中默认编码的差异

python2 与python3中最大的区别(编码问题bytes&str

nose在python2与python3中的包的自动发现用例的区别

python2和python3中的关键字的区别--keyword模块