python的编解码:
input文件(gbk, utf-8...) ----decode-----> unicode -------encode------> output文件(gbk, utf-8...)
很多文件处理的包是unicode编码,刚开始读入文件(gbk, utf-8...)后要decode为unicode编码格式,再encode为需要
的格式(gbk, utf-8...)。
第一种 用open():
f=open(‘xxx‘, ‘r‘)
content=f.read().decode(‘utf-8‘)
第二种 用codecs.open():
f=codecs.open(XXX,‘r‘, encoding=‘utf-8‘) #使用codecs.open读入时直接解码
content=f.read()
时间: 2024-10-24 22:21:34