- 汉字编码:gb2312(简体汉字)<——兼容——gbk(简体、繁体)<——兼容——gb18030(简体、繁体、少数民族)。
- ascii->unicode->utf-8
python3:所有字符串用Unicode表示,编码后用bytes类型表示:
s=‘我爱北京天安门。‘ s_gbk=s.encode(‘gbk‘) print(s_gbk)
输出:
b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘
更换编码方式,采用utf-8编码:
s=‘我爱北京天安门。‘ s_utf8=s.encode(‘utf-8‘) print(s_utf8)
输出:
b‘\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8\xe3\x80\x82‘
万恶的美帝用utf-8把每个汉字用3个字节表示,gbk编码用两个字节表示。
s=‘我爱北京天安门。‘ s_gbk=s.encode(‘gbk‘) s_gb2312=s.encode(‘gb2312‘) s_gb18030=s.encode(‘gb18030‘) print(s_gbk) print(s_gb2312) print(s_gb18030)
输出:
b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘ b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘ b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘
向下兼容。
s=‘我爱北京天安门。‘ s_gbk=s.encode(‘gbk‘) s_gbk_decode=s_gbk.decode(‘gbk‘) s_gbk_decode_encode=s_gbk_decode.encode(‘utf-8‘) print(s_gbk) print(s_gbk_decode_encode)
输出:
b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘ b‘\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8\xe3\x80\x82‘
时间: 2024-10-11 17:28:37