区位码、国标码、机内码

1980年，为了使每个汉字有一个全国统一的代码，我国颁布了汉字编码的国家标准：GB2312-80《信息交换用汉字编码字符集——基本集》，这个字符集是目前国内所有汉字系统的统一标准。它规定了用两个字节来表示一个汉字，每个字节都只能使用低7位，共有128*128种状态，又由于ASCII中的控制代码在汉字系统中也要使用，所以只剩下94*94=8836种状态用来表示国标码规定的6763个汉字和682个全角字符。每个字符都对应了唯一的区位码、国标码和机内码。

区位码

区位码是一个四位的十进制数，前两位叫做区码，后两位叫做位码。区位码共有94个区（行），每个区有94个位（列）。

1~9区	特殊字符区
10~15区	用户自定义区
16~55区	一级汉字
56~87区	二级汉字

一级汉字：3755个常用的汉字，按拼音排序；二级汉字：3008个汉字，按部首排序。

为了处理与存储的方便，每个汉字的区号和位号在计算机内部分别用一个字节表示。如，汉字“学”的区号为49，位号为07，区位码为4907D，对应的二进制表示为

00110001 00000111

区位码不能用于通信，因为它可能与通信使用的控制码（00H~1FH）发生冲突。

国标码

为了进行汉字通信，将区位码的区码和位码都加20H，避开了控制码，就得到了国标码。国标码用十六进制表示，如，汉字“学”的国标码为5127H。

机内码

由于汉字与英文字符通常混用，所以汉字信息如不加以特殊标识就会与ASCII码混淆，如汉字“学”的国标码为51 27H，在ASCII中代表“Q”和“‘”。此问题的解决方法之一是将汉字编码每字节的最高位置为1，即国标码两字节分别+80H，则汉字“学”的机内码为D1A7H。

机内码用十六进制表示。

GB2312简体中文编码表是机内码对照表。

时间： 2024-10-11 05:38:07

区位码、国标码、机内码

区位码

一级汉字：3755个常用的汉字，按拼音排序；二级汉字：3008个汉字，按部首排序。

国标码

机内码

区位码、国标码、机内码的相关文章

中文区位码、国标码、机内码、输入码（外码）、字形码等

vc 文字转换到机内码，输入汉字和数字，输出一串16进制码（数字-〉ASII码，汉字—〉国标码）

汉字区位码、国标码（交换码）和机内码转换方法

嵌入式开发之字符叠加---gb2313 国标码，utf8 国际码，unicode 无码

HDOJ 2030 汉字统计(借此题来谈谈ASCII码与汉字机内码)

用C++程序理解汉字的机内码表示

C语言中两位ASCLL码可以表示汉字

web--编码

iOS开发日记7-字符编码(UTF8转码)