默认linux下,
>>> str1=u‘中文‘
>>> str2=‘中文‘
>>> str1,str2
(u‘\u4e2d\u6587‘, ‘\xe4\xb8\xad\xe6\x96\x87‘)
windows下:(u‘\u4e2d\u6587‘,‘\xd6\xd0\xce\xc4‘)
从这点可看出,windows终端默认是gb2312,linux终端默认是utf-8
>>> str1.encode(‘utf-8‘)
‘\xe4\xb8\xad\xe6\x96\x87‘
>>> str1.encode(‘utf-8‘).decode(‘utf-8‘)
u‘\u4e2d\u6587‘
>>> str1.encode(‘gb2312‘)
‘\xd6\xd0\xce\xc4‘
>>> str1.encode(‘gb2312‘).decode(‘gb2312‘)
u‘\u4e2d\u6587‘
>>> str1.encode(‘gbk‘)
‘\xd6\xd0\xce\xc4‘
>>> str1.encode(‘gbk‘).decode(‘gbk‘)
u‘\u4e2d\u6587‘
>>> string1=‘\xe4\xb8\xad\xe6\x96\x87‘
>>> print string1.decode(‘utf-8‘)
中文
>>> string2=‘\xd6\xd0\xce\xc4‘
>>> print string2.decode(‘gb2312‘)
中文
>>> print string2.decode(‘gbk‘)
中文
>>> print ‘\xe4\xb8\xad\xe6\x96\x87‘
中文
在windows终端下,
>>> print ‘\xe4\xb8\xad\xe6\x96\x87‘
涓枃
>>> print string3.decode(‘utf-8‘)
中文