1.如果此处有非法字符 gbk 此网页的编码为gbk2312 用‘ignore’屏蔽
先进行本网也得gdk解码 再用本地的utf-8编码
print html.read().decode(‘gbk‘,‘ignore‘).encode(‘utf-8‘) 此处统一gbk
2.下载自动检测字符集的包
百度快照 下载chardet 解压后吧 chardet文件夹移到site-package下
字符集包的下载地址
时间: 2024-12-06 09:23:02
1.如果此处有非法字符 gbk 此网页的编码为gbk2312 用‘ignore’屏蔽
先进行本网也得gdk解码 再用本地的utf-8编码
print html.read().decode(‘gbk‘,‘ignore‘).encode(‘utf-8‘) 此处统一gbk
2.下载自动检测字符集的包
百度快照 下载chardet 解压后吧 chardet文件夹移到site-package下
字符集包的下载地址