宽字符、多字节、unicode、utf-8、gbk编码转化

今天遇到一个编码的问题,困惑了我很长时间,所以就简要的的了解了一下常用的编码类型。

我们最常见的是assic编码,它是一种单字节编码,对多容纳256个字符。

我们在编程的时候经常遇到unicode,unicode是一种宽字节编码,能够很好的融合世界各个国家的字符,具有国际通用性,所谓宽字符其实使用两个字节来表示一个符号。

而utf8是一种多字节编码,一个字符所占用的字节数不确定,是对unicode的精简版本,也用具有世界通用性。Gbk也是一种双字节编码,其实就是对中文简体的一种编码,不具有世界通用性。其他的如韩文、日文都类似这种编码。

我遇到的编码的问题是这样的:

在cocos2dx项目中使用了CCEditBox,通过其函数getText()获取其中的文本,该字符串是windows的路径,但是路径中有中文。根据该路径调用windows API遍历该路径下的所有文件,结果找不到相关路径。我在程序中查看路径有乱码的情况,后来我将文本转化位GBK编码格式就正常了。

原因是这样的cocos2dx是按照utf8编码,他要走向世界,必须具有世界通用性,这也是它选择utf8的原因之一吧。所以getText()函数返回的是utf8编码的字符串,而windows API(中文版)用的是GBK编码格式,所以我们要转换一下格式,也就是将文本从utf8格式转换为GBK编码格式。Windows提供两个API可以完成这种转换。

1 int MultiByteToWideChar(
2 UINT CodePage,           // code page,使用CP_ACP代码页就实现了ANSI与Unicode之间的转换,使用CP_UTF8代码页就实现了UTF-8与Unicode之间的转换
3 DWORD dwFlags,          // character-type options,一般为设0
4 LPCSTR lpMultiByteStr,  // string to map,指向一个多字节字符串
5 int cbMultiByte,         // number of bytes in string,多字节字符串的长度(字节数,当以0结尾的时候,也可以设为-1)
6 LPWSTR lpWideCharStr,  // wide-character buffer,存放转换后的宽字符串缓冲区
7 int cchWideChar        // size of buffer,宽字符串缓冲区的最大长度(字符数)
8 ) 
 1  int WideCharToMultiByte(
 2 UINT CodePage,            // code page,使用CP_ACP代码页就实现了ANSI与Unicode之间的转换,使用CP_UTF8代码页就实现了UTF-8与Unicode之间的转换
 3 DWORD dwFlags,          // performance and mapping flags,一般为设0
 4 LPCWSTR lpWideCharStr,    // wide-character string,指向一个宽字符串
 5 int cchWideChar,          // number of chars in string,宽字符串的长度(字符数)
 6 LPSTR lpMultiByteStr,   // buffer for new string,存放转换后的多字节字符串缓冲区
 7 int cbMultiByte,          // size of buffer,多字节字符串缓冲区的最大长度(字节数)
 8 LPCSTR lpDefaultChar,     // default for unmappable chars,转换失败的字符所显示的字符串,一般设为NULL
 9 LPBOOL lpUsedDefaultChar  // set when default char used,如果有字符转换失败,则为TRUE,一般设为NULL
10  );
时间: 2024-10-06 23:23:26

宽字符、多字节、unicode、utf-8、gbk编码转化的相关文章

宽字符与Unicode (c语言 汉语字符串长度)

在C语言中,我们使用char来定义字符,占用一个字节,最多只能表示128个字符,也就是ASCII码中的字符.计算机起源于美国,char 可以表示所有的英文字符,在以英语为母语的国家完全没有问题. 但是世界上存在很多不同的语言,例如汉语.汉语.日语等有成千上万个字符,需要用多个字节来表示,称之为宽字符(Wide Character).Unicode 是宽字符编码的一种,已经被现代计算机指定为默认的编码方式,Windows 2000以后的操作系统,包括Windows 2000.XP.Vista.Wi

通过编写串口助手工具学习MFC过程——(三)Unicode字符集的宽字符和多字节字符转换

通过编写串口助手工具学习MFC过程 因为以前也做过几次MFC的编程,每次都是项目完成时,MFC基本操作清楚了,但是过好长时间不再接触MFC的项目,再次做MFC的项目时,又要从头开始熟悉.这次通过做一个串口助手再次熟悉一下MFC,并做了一下记录,以便方便以后查阅.做的过程中多是遇到问题直接百度和谷歌搜索来的,所以很多都是不求甚解,知其然不知其所以然.另外做此工具只是为了熟悉了解,许多功能还没有完善!(开发工具VS2008) (三)Unicode字符集的宽字符和多字节字符转换 在上一节<(二)通过&qu

宽字符wchar_t和窄字符char——putwchar、wprintf

宽字符wchar_t 与 窄字符char 先说下窄字符char,这个大部分读者应该很清楚,char类型的变量占一个字节(byte)(也就是8个bit(比特)),能表示256个字符,那char的范围有两种 第一种(signed char):-128~127 第二种(unsigned char):0~255 (对char的范围感兴趣的读者可以看一下这篇文章:浅谈char类型范围) 但C标准并没有规定char 应该是unsigned还是signed,C标准定义了三种类型:char.signed cha

windows 编程 —— 宽字符集 与 Unicode

从ASCII码 到 Unicode 双字节字符集 迄今为止,我们已经看到了256个字符的字符集(ASCII).但中国.日本和韩国的象形文字符号有大约21,000个.如何容纳这些语言而仍保持和ASCII的某种兼容性呢? 解决方案(如果这个说法正确的话)是双字节字符集(DBCS:double-byte character set).DBCS从256代码开始,就像ASCII一样.与任何行为良好的代码页一样,最初的128个代码是ASCII.然而,较高的128个代码中的某些总是跟随着第二个字节.这两个字节

宽字符,Ansic和Unicode

电脑发展的初期,只是在美国等英文国家使用,英文只有26个字母和其它字符,一个字节最多可以表示256个字符,如字母“A”用0x41(二进制01000001)表示,字母“a”用0x61(二进制01100001)表示.为了使各家电脑公司生产的电脑统一,美国搞了个国家标准ANSI,一直沿用至今,我们今天用的电脑普通情况下使用的都ANSI编码. ANSI编码,每个字符占一个字节,但最多只能表示256个字符.汉字等东亚语言字符怎么办呢?于是采用两个字节共同表示一个汉字的方法.二个字节理论上可以表示65535

多字节字符与宽字符重新认识

一直都说,多字节字符,何为多字节,并不只是一个char就是了.英文的字符都是char能表示,但是中文字符,是2个字节表示的. 所以, char s[] = "ha哈哈";     int l = strlen(s);// 6     char c = s[2];// -71 '?' cannot represent s 是占7个字节. s[2]只是'哈'的前半部分,所以决不能写这样的比较代码!!!: if (s[2]=='哈') 所以,字符串中有中文时,一定要格外小心. 甚至,所有的C

彻底弄懂UTF-8、Unicode、宽字符、locale

目录 Unicode.UCS UTF8 结论: 宽字符类型wchar_t locale 为什么需要宽字符类型 多字节字符串和宽字符串相互转换 最近使用到了wchar_t类型,所以准备详细探究下,没想到水还挺深,网上的资料大多都是复制粘贴,只有个结论,也没个验证过程.本文记录探究的过程及结论,如有不对请指正. Unicode.UCS UCS(Universal Character Set)本质上就是一个字符集. Unicode的开发结合了国际标准化组织所制定的?ISO/IEC 10646,即通用字

字符集研究之多字节字符集和unicode字符集

作者:朱金灿 来源:http://blog.csdn.net/clever101 本文简介计算机中两大字符集:多字节字符集和unicode字符集的出现及关系. 首先我们须要明确的是计算机是怎样找到字符的,原来计算机通过一个字符编号来找到字符,这个和学校里每一个学生都有一个学号相似.这里的字符编号和相应的字符就构成了一个字符集.由于计算机最早是在英语国家诞生的,大多数英文信息是由英文字母.数字以及一些其他字符构成了一个128个字符的ASCII字符集.本来这对于英语国家来说够用了.可是随着计算机的普

多字节字符和宽字符

多字节字符和宽字符 开发多语言版软件,经常会碰到字符编码的问题,看了很多资料都说得不是很清楚,终于碰到一篇讲的不错的文章跟大家分享一下!(时间关系,翻译了重点部分) char型和wchar型 在日文版Windows上我们用到字符编码是Shift-JIS,主要的用1byte表示英数字,2byte表示日文字符,这种编码表示的字符称作多字节字符.(中文版Windows字符编码:GB2312) char数组的字符 世界上主流的标准字符编码是Unicode,在Windows上,英数字,日文字符,中文字符,