字符编码的故事(转)

原文出自： http://www.cnblogs.com/yjf512/archive/2012/04/21/2461084.html

字符是什么

字符是什么？就是有意义的图形，比如a，中等。在不同的国家代表不同的意思。

但是在计算机世界中只有0和1，好了，如何用0和1将这些字符表示出来呢？这就是编码存在的意义。

编码一点也不高深，就是一个计算机的01和字符ab的简单映射。

于是故事开始了...

很久很久以前，计算机世界只有美国人。美国人的文字造诣很低的，他们的所有文字就只有26个字母，甚至加上大写和小写，阿拉伯数字，计算机中的控制符（回车啥的）都不超过256个（只有127个）。于是，对于他们来说，很自然，那么计算机中用8位就可以表示他们的所有字符了吧。于是他们将8位称作一个字节，计算机的8位表示的每个数字对应了一个英文字符，画了一张表（ASCII码表）。最早的编码AscII码出现了。

欧洲人出场了。欧洲是有好多个国家的，他们的每个国家也都有自己的文字，比如拉丁文，希腊文等。怎么办呢？于是想到，你美国人指定的ASCII码表里面不是只有127个字符吗，后面128-255的字符不是说待定吗，好吧，我们就不客气了。于是欧洲人就将各种奇怪的语言塞入127后面的字符中，形成了一系列的ISO 8859字符集。比如希腊文塞入ASCII，就形成了ISO/IEC 8859-7，西欧语种塞入ASCII就形成了ISO/IEC 8859-1，ISO/IEC 8859-1也叫做latin-1。（对，就是mysql里面经常见到的编码）

下面是ISO 8859现有的15个字符集

ISO/IEC 8859-1 (Latin-1) - 西欧语言
ISO/IEC 8859-2 (Latin-2) - 中欧语言
ISO/IEC 8859-3 (Latin-3) - 南欧语言。世界语也可用此字符集显示。
ISO/IEC 8859-4 (Latin-4) - 北欧语言
ISO/IEC 8859-5 (Cyrillic) - 斯拉夫语言
ISO/IEC 8859-6 (Arabic) - 阿拉伯语
ISO/IEC 8859-7 (Greek) - 希腊语
ISO/IEC 8859-8 (Hebrew) - 希伯来语（视觉顺序）
ISO 8859-8-I - 希伯来语（逻辑顺序）
ISO/IEC 8859-9（Latin-5 或 Turkish）- 它把Latin-1的冰岛语字母换走，加入土耳其语字母。
ISO/IEC 8859-10（Latin-6 或 Nordic）- 北日耳曼语支，用来代替Latin-4。
ISO/IEC 8859-11 (Thai) - 泰语，从泰国的 TIS620 标准字集演化而来。
ISO/IEC 8859-13（Latin-7 或 Baltic Rim）- 波罗的语族
ISO/IEC 8859-14（Latin-8 或 Celtic）- 凯尔特语族
ISO/IEC 8859-15 (Latin-9) - 西欧语言，加入Latin-1欠缺的芬兰语字母和大写法语重音字母，以及欧元（€）符号。
ISO/IEC 8859-16 (Latin-10) - 东南欧语言。主要供罗马尼亚语使用，并加入欧元符号。

接着伟大的中国人也开始使用上电脑了。中文可不得了，文字博大精深，字符远远超过了256个。所以我们无法使用ASCII的扩展了。怎么办呢？ 1981年的时候，国家派一批人来做了这个事情，他们统计出所有的中文大概有6000多个字符（后来证明这些人的水品也是有限，好多字符都没有搜出来，于是就有了多种的中文编码），用两个字节（16bit）来表示，16bit能表示的是65536个字符，太够了。我们将16bit分为前8bit和后8bit
如果前8bit小于127（英文ASCII），那么这个8bit就是表示英文
如果前8bit大于127，那么这8bit和后面的8bit合起来表示一个中文

GB是啥意思？国标。

好了，后来某些领导发现，他的名字没法编码了，这个问题出来了。6000个汉字还不足以囊括所有中文，国家在1995年又组织了一批人，继续搜罗一些生僻字，一共搜集出了21886个汉字和字符，形成了GBK编码，GBK编码向下兼容GB2312。

K是啥意思？扩展。

再后来发现了，一些满文，蒙古文啥的少数名族的语言没有编辑到GBK中，继续编辑收录，形成了GB18030编码。

中国台湾的人民当然不能使用大陆编辑使用的GBXX系列编码了，于是他们自己搞了一套BIG5中文编码，收录了13060个汉字和字符。但是这里要注意，BIG5的编码映射表和GBXX系列的就完全不一样了，比如同一个“中”字，在BIG5和GB2312中就是两个完全不同的字节。这里就会有乱码出现了，比如（"陶喆"和"陶吉吉"），各种简体中文和繁体文的转码工具就出现了。

BIG5是什么意思？
五种中文套装软体：文书处理，资料库，试算表，通讯，绘图。大致的意思是这套编码主要使用于这5个领域

各个国家使用各个国家自己的编码有没有很繁琐？于是大家很期盼有一种统一的编码形式出现。Unicode编码出现了。Unicode使用的通用的字符集叫做UCS。这个字符集就是一个大的字符空间，每个语种都在这个字符空间内划分一段领域。现在应用的UCS是UCS-2，意思就是不管是英文中文，统一使用两个字节（16bit）来进行字符分配。UCS-2字符集可以表示216（即65536）个字符。已经基本满足世界上所有语言了。如果不够怎么办？已经有预定方案UCS-4（用4个字节表示一个字符）。

切记：UTFXX是Unicode的具体实现方式。

UTF-16是Unicode最基本的实现。Unicode使用16bit表示一个字符，UTF-16就是直接将字符集的映射搬过来而已。

本来这样就已经很美好了，但是美国人又不干了。凭什么每个英语字符要占用2个字节？凭什么占用了我们的带宽和CPU？于是一帮英语体系的外国人讨论出了UTF-8这种字符编码。

UTF-8这种编码是怎么回事呢？
英文字符，和ASCII码一样，占用一个字节
其他语种，每种语种分配一个模板，这个模板有16bit，24bit，甚至还有32bit的。各个语种根据这个模板，将自己的语言转化成模板要求的编码（UTF-8）

这里演示一个中文字“汉”
比如中文分到的模板是1110xxxx 10yyyyyy 10zzzzzz
汉字的Unicode编码是0x6C49，二进制是0110 1100 0100 1001
将这个二进制按照模板的x，y，z顺序插入
得到11100110 10110001 10001001 就是E6 B1 89

好了…大家看出这个对中文有什么不好的吗？原先一个中文使用UTF-16只需要两个字节，但是使用UTF-8却需要3个字节，如果一个网页有1w个中文字，那么我们就需要多传输1w个字节，带宽啊！！现在就明白了，为什么国内一些网站，比如sina，它的编码规则是使用GBK了吧！

下面再说一下很多编辑器的自动编码匹配的问题。编辑器会检查出你输入的字符是UTF-8还是GBK，基本根据的就是这个UTF-8模板，如果符合模板，就会判断是UTF-8。很多文章说的txt中输入“联通”存为GBK编码再打开会出现乱码就是这个原因导致的。

具体请看这篇文章

还有一种ANSI是什么呢？windows内核是使用UTF-16编写的，但是页面上展示的语言是根据系统设置的“语言”来展示的。ANSI就是windows系统根据你设置的语言环境而进行自动变化的一种编码。比如在中文windows系统下，ANSI就代表GBK编码，日文操作系统下就代表JIS编码。