字符集研究之多字节字符集和unicode字符集

作者：朱金灿

来源：http://blog.csdn.net/clever101

本文简介计算机中两大字符集：多字节字符集和unicode字符集的出现及关系。

首先我们须要明确的是计算机是怎样找到字符的，原来计算机通过一个字符编号来找到字符，这个和学校里每一个学生都有一个学号相似。这里的字符编号和相应的字符就构成了一个字符集。由于计算机最早是在英语国家诞生的，大多数英文信息是由英文字母、数字以及一些其他字符构成了一个128个字符的ASCII字符集。本来这对于英语国家来说够用了。可是随着计算机的普及，非英语国家的文字字符也须要用计算机来存储，这时字符集就须要一种扩展机制了。

一种简单的扩展机制就是兼容ASCII字符集。在后面加上自己的编码。可以想象，不同字符的编号长度是不一样的，有些是两个字节，有些是三个字节甚至四个字节等等。这种字符集就叫多字节字符集。

多字节字符集就是多种字符集的统称。比方中文字符集GB2312和GBK、日文编码JIS都是多字节字符集。

由于多字节字符遵循的是各个国家的编码，要进行信息交换必须进行繁琐的转换。

这时就有人想：有没有一种编码规则，能给全世界的字符都编上统一的编号呢？就这样unicode字符集诞生了。unicode字符集顾名思义就是每一个字符都有一个唯一的编码。最早的unicode字符是採用两个字节也是16位对字符进行编码（也就是可以对65536个字符进行编号）。故被称为utf-16。后来发现大多信息都是英文构成的，为了节省空间，同一时候为了兼容单字节的处理系统，就出现了一种变种的unicode字符集——utf8。utf8的实现原理和多字节字符集一样，前面是128个子符是ASCII字符，后面的採用变长的编码方式，就是一个字符可能用两个字节、三个字节或四个字节进行编码。

再到后面发现16位的编码也不够用了，採用32位编码，这样就出现了utf-32。

參考文献：

1. Unicode字符集和多字节字符集关系

时间： 2024-10-29 00:41:52

字符集研究之多字节字符集和unicode字符集

字符集研究之多字节字符集和unicode字符集的相关文章

【转】CEF3加载网页---多字节字符集和UNICODE字符集

oracle查看字符集和修改字符集

字符集研究之不同字符集的转换方式

通过编写串口助手工具学习MFC过程——（三）Unicode字符集的宽字符和多字节字符转换

【JavaScript】浅析javaScript和HTML与unicode字符集的关系

C# Unicode字符集批量转码为汉字(互转)

字符集和字符编码

转：带你玩转Visual Studio——带你理解多字节编码与Unicode码

彻底搞懂字符编码(unicode,mbcs,utf-8,utf-16,utf-32,big endian,little endian...)[转]