简单几句话总结Unicode，UTF-8和UTF-16

概念

先说一说基本的概念，这包括什么是Unicode，什么是UTF-8，什么是UTF-16。

Unicode，UTF-8，UTF-16完整的说明请参考Wiki（Unicode，UTF-8，UTF-16）。用比较简单的话来说就是，Unicode定义了所有可以用来表示字符的数值集合（称之为Code Point）。UTF-8和UTF-16等UTF标准定义了这些数值和字符的映射关系。

UTF-8

优势

UTF-8最大的优势是，没有字节序的概念。所以特别适合用于字符串的网络数据传输，不用考虑大小端问题。

劣势

本地字符串处理过程中，如果使用UTF-8，对于英文字符的处理没有太大的问题。一个char变量表示一个英文字符。但是对于中文等远东字符集来说，就比较坑爹了。char str[]; str[0]并不能完整表示一个汉字。UTF-8编码格式下，一个汉字需要至少3个char才能表示。这对于通过下标来操作字符串的操作来说是非常痛苦的一件事情。

另外，一个汉字需要至少3个char来表示，也让汉字在网络传输上存在劣势，占用太多流量。

UTF-16

优势

UTF-16 LE是windows上默认的Unicode编码方式，使用wchar_t表示。所有wchar_t *类型的字符串(包括硬编码在.h/.cpp里的字符串字面值)，VC都自动采用UTF-16的编码(字符串字面值，literal string，存在很多坑。特别是char *类型的字面值，最终内存使用何种编码方式完全取决于当前文件的编码方式。也就是说当前文件如果是GBK编码的，那么文件里char * str = "中午"，str指向的内存字符串二进制是使用GBK编码的。如果文件编码是UTF-8，那么内存是使用UTF-8编码。所以为什么一直要强调字符串应该放在资源文件里，而不是硬编码在.h/.cpp文件里！)。

UTF-16另外一个优势就是常用字符都可以使用两个个字节表示，也就是一个wchar_t(这里指Windows平台)。所以，在Windows平台上，特别适合使用wchar_t来作为字符串的存储基类型。一个wchar_t表示一个字符。操作使用非常方便。

劣势

没有统一的表示UTF-16编码的字符类型。C++98/03里对wchar_t的定义是非常宽泛的。这导致在Windows平台上，wchar_t是2字节的；在Unix-like系统上是4字节的。代码移植上，可能会遇到挑战(我没移植过，所以不确定会有什么难度，以及难度有多大)。

即使最新的C++11里已经定义除了char16_t表示UTF-16，MS的VS2013还不支持char16_t。所以目前使用char16_t还不具移植性。

据我了解，UTF-16编码和GBK编码相比，还存在一个排序的劣势。也就是说，如果要按照汉语拼音的字母顺序对汉字进行排序，GBK会得到正确的结果，而UTF-16就不行(暂时我还没这种需求，所以我没验证过，不过好像我马上就要与到这种需求了，到时候我再验证下)。

UTF-16编码字符串的网络传输，要考虑大小端的问题。

UTF-32

优势

这个优势就明显了，所有字符都是4字节，fix-length。一个wchar_t(Unix-like系统上)表示一个字符。

劣势

对于以英文为主的字符串来说，空间消耗大。

面临和上面UTF-16一样的问题。一致性，排序，网络传输。char32_t VS2013还不支持（甚至VS 14 CPT也没打算支持）。

总结

UTF-8最适合用来作为字符串网络传输的编码格式。UTF-16最适合当作本地字符串编码格式。如果定义好了网络传输协议，那么UTF-16也非常合适当作网络字符串传输的编码格式，特别是中文等远东地区字符集。比起UTF-8来说，节省流量。UTF-32没什么特殊癖好或者需求的话，暂时还用不上。

简单几句话总结Unicode，UTF-8和UTF-16

时间： 2024-10-09 01:33:01

简单几句话总结Unicode，UTF-8和UTF-16

概念

UTF-8

优势

劣势

UTF-16

优势

劣势

UTF-32

优势

劣势

总结

简单几句话总结Unicode，UTF-8和UTF-16的相关文章

HTML元素title里面和js里面几句话如何换行格式代码是如何的？

用七年时间造出的阿里云，如今三句话告诉你是什么

每一个程序员都应当了解的11句话

模式识别之相似度计量---余弦计算相似度度量关于两句话的相似度

很多人，被这句话害了一辈子

10句话立马激怒程序猿，杀伤力爆棚～

被洗脑的中国人常用的10句话

要想混得好，这50句话你不得不读！

三句话教你买对房子!买到好房子的都祝福哥三年内赚两个亿!