C++11之后，对源代码增加了UTF8和UCS4的支持（Windows内部使用Unicode，因为nt内核用的是ucs2，那是89年，utf8到了92年才发明出来）

在C++编程中，我们常打交道的无非是编辑器和编译器，对编辑器起来说，我们常遇到就是乱码问题，比如中文注释显示或是保存不了等，解决办法就是把你的文件保存成Unicode（UTF8）。

对于编译器来说，编码方式取决于它对C++标准的支持程度，比如C++ 11以前，字符串我们只能指定成2种：一种是MBCS，如char* p="abc哈哈"；还有一种是UCS2，比如wchar_t*p = L"abc哈哈"，这样编译器就知道你要表示的字符串类型。C++11之后，标准增加了UTF8和UCS4的支持，比如char* p=u8"abc哈哈"表示UTF8，wchar_t* p=u"abc哈哈"表示UCS2(实际上和L"xxxx"一样), char32_t* p=U"abc哈哈"表示UCS4。这里要区分编译期和运行期，尽管C++11之前在编译期我们没法告诉编译器我们这个常量串是UTF8格式的，但是程序运行期我们还是可以使用所有的编码式(MBCS/UTF8/UCS2/UCS4)，因为这些最终在内存里都是二进制流。

另外C++11还增加了UTF8， UCS2， UCS4相互转码的支持：

std::codecvt_utf8	封装了UTF8相关的编码转换
std::codecvt_utf16	封装了UCS2相关的编码转换
std::codecvt_utf8_utf16	封装了UTF8与UCS2的编码转换

对于C++跨平台开发，我们经常遇到的就是默认用那种编码方式的问题，我们会发现Windows 的UCS2解决方案对其他平台来说是个异类，一般来说有2种解决方法：

一种是统一用UTF8 ，但是这样对Windows来说有点麻烦，因为Windows的API都是UCS2的，所以这种方式意味着任何字符串在传给Windows API 之前都要从UTF8转成UCS2; 还有一种就是用#define宏了， Windows上将字符串相关宏全都定义成UCS2, 其他平台则全都定义成UTF8，该方式要求就你在写代码时头脑要比较清醒，因为同样的代码在不同平台上的编码格式是不一样的。

一直很好奇，谁知道Windows为什么不用UTF8，非要搞得和其他平台不一样？

因为nt内核用的是ucs2，那是89年，utf8到了92年才发明出来。

http://www.cppblog.com/weiym/archive/2015/07/25/211370.html

时间： 2024-11-05 14:43:06

C++11之后，对源代码增加了UTF8和UCS4的支持（Windows内部使用Unicode，因为nt内核用的是ucs2，那是89年，utf8到了92年才发明出来）

C++11之后，对源代码增加了UTF8和UCS4的支持（Windows内部使用Unicode，因为nt内核用的是ucs2，那是89年，utf8到了92年才发明出来）的相关文章

【CEF3编译】增加对mp3/mp4等格式支持的编译手记完成编译,增加mp3/mp4等格式支持(3) 2018-5-21

C++11 新特性一增加了 func宏

HPUX 11.31 LVM VG 增加Max PV 方法之一

LINUX 源代码安装与配置samba服务，支持从windows上读写LINUX文件。

python中文utf8编码后是占3个字符,unicode汉字为2字节

为co-body增加xml等文本类型的支持

UTF-8、UTF-16、UTF-32编码的相互转换

关于字符集，编码格式，大小端的简单总结

python网页爬虫小项目开发