GB2312,GBK,GB18030,UTF8四种汉字编码标准有什么区别和联系

从GB2312、GBK 到 GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为 0。按照程序员的称呼，GB2312、GBK 到 GB18030 都属于双字节字符集 (DBCS)。

以下是这四种字符集的包含关系：GB2312 < GBK < GB18030 < UTF8

-------------------------------------------------------------------------------------------

可以参考这个链接 http://www.fmddlmyy.cn/text24.html

-------------------------------------------------------------------------------------------

1980年的GB2312一共收录了7445个字符，包括6763个汉字和682个其它符号。

1995年的汉字扩展规范GBK1.0收录了21886个符号，包括21003个汉字和883个其它符号。

GB18030有两个版本：GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本，它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。

否则在处理部分文件时，进行转换编码转换的时候，会出现转不了的情况，就会报错。

比如在PYTHON里，

for l in open('abc_gb18030.txt'):
    ls = l.rstrip('\n').decode('gbk').encode('utf8').split('\t')
    print ls

abc_gb18030.txt是GB18030编码，在代码里，先转成了GBK，然后又转成了UTF8，因为在向GBK转换的时候，是又一个较大字符集往小的字符集转，所以就会报错。

时间： 2024-10-05 10:58:03

GB2312,GBK,GB18030,UTF8四种汉字编码标准有什么区别和联系

GB2312,GBK,GB18030,UTF8四种汉字编码标准有什么区别和联系的相关文章

汉字编码（GB2312 GBK GB18030）

告别乱码，针对GBK、UTF-8两种编码的智能URL解码器的java实现（转）

ThinkPHP 路由解析(四种url的意义、区别、以及设置某一种url的真实作用)

GB2312,GBK和UTF-8的区别

C++ 四种强制转换符的区别

静态、自适应、流式、响应式四种网页布局有什么区别？

a:link a:visited a:hover a:active四种伪类选择器的区别

编码格式简介：ASCII码、ANSI、GBK、GB2312、GB18030和Unicode、UTF-8，BOM头

Android四种Activity的加载模式（转）