GBK与UTF-8编码错误转换后，无法再正确恢复

字符集错误转换导致的问题

UTF-8格式编码的字节流，按GBK字符集转换为字符串，会出现乱码，这很正常。但将其重新转为字节流，再用UTF-8字符集转为字符串，还是乱码。这就让我产生了疑惑，虽然使用错误的字符集必然导致乱码，但字节的信息并没有改变，因此再转为字节流，用正确的字符集解码，应该得到正常的字符串。但事实是，被错误字符集转换过的字符串，无法恢复到原来的字符集。

问题的根本原因

造成该问题的根源是字节发生了变化。GBK或UTF-8遇到无法解析的字符时，会使用特殊的字符代替，因此造成原有字节信息的丢失，无法恢复。

错误转换的分析

UTF-8 → GBK

对于一串UTF-8编码的字节流，使用GBK进行解码。连续两个大于127的字节被认为是一个GBK编码的字符；若只读到一个大于127的字节，便发生错误，无法解析。此时，用字符‘？‘代替错误字节，ASCII码是63。

以“樊”字为例，UTF-8编码使用三个字节表示该字符，字节码为[11100110, 10101000, 10001010]（[e6, a8, 8a]）。使用GBK解码时，读到第一个字节大于127，则取两个字节解析为一个GBK字符。前两个字节e6 8a被解析为GBK字符——妯。第三个字节无法解析，所以赋值为？，最后的结果是妯?。

可以看出，最后一个字节的信息丢失了，由8a变成3F，即使把结果再转换为字节流，也无法用utf-8字符集正确解析了。

GBK → UTF-8

对于一串GBK编码的字节流，使用UTF-8解码。UTF-8对于字节的格式有严格要求，当解析某个字符失败时，使用‘?‘（UTF-8编码为EF BF BD）代替。

继续以“樊”字为例，其GBK字节码为[10110111, 10101110]（[B7, AE]）。使用UTF-8解码时，根据规则，要求10开头的字节之前，必须有字节标识一个字符的长度，所以两个字节都无法解析。最后的字符串是??。

可以看出，所有的字节信息都丢失了，因此无法再使用GBK解析该字符串。

注意，UTF-8用?替换，是以字符为单位的。例如[11100110, 10101000, 01000001]使用UTF-8解码，得到的结果是?A，而不是??A。根据第一个字节的格式，UTF-8期望将三个字节转换为一个字符。但最后一个字节不符合要求，所以前两个字节被一个?代替。而不是每个字节都被?代替。

原文地址：https://www.cnblogs.com/DataArt/p/10010878.html

时间： 2024-11-11 11:54:47

GBK与UTF-8编码错误转换后，无法再正确恢复

字符集错误转换导致的问题

问题的根本原因

错误转换的分析

UTF-8 → GBK

GBK → UTF-8

GBK与UTF-8编码错误转换后，无法再正确恢复的相关文章

Delphi 编码转换 Unicode gbk big5（使用LCMapString设置区域后，再用API转换）

javac编译出现的编码错误: 编码GBK的不可映射字符

编程实现GBK到UFT-8编码的转换

正确理解和使用GBK及UTF-8网页编码

PHP 字符串编码的转换

Linux下将UTF8编码批量转换成GB2312编码的方法

Python文件读取编码错误问题解决之（PyCharm开发工具默认设置的坑。。。）

关于Apache默认编码错误，导致网站乱码的解决方案

3 -11 字符编码与转换