跨平台Unicode与UTF8互转代码

参考来源:http://blog.csdn.net/flying8127/article/details/1598521

在原来原基础上,将代码整理,并加强安全性. 并按照WindowsAPI设计, 添加输出缓冲长度探测功能

当OutUTFString为NULL时, 可以进行输出的UTF8字符串长度探测

   1:  uint32 UniCharToUTF8(wchar_t UniChar, char *OutUTFString)

   2:      {

3:

   4:          uint32 UTF8CharLength = 0;

5:

   6:          if (UniChar < 0x80)

   7:          {

   8:              if ( OutUTFString )

   9:                  OutUTFString[UTF8CharLength++] = (char)UniChar;

  10:              else

  11:                  UTF8CharLength++;

  12:          }

  13:          else if(UniChar < 0x800)

  14:          {

  15:              if ( OutUTFString )

  16:              {

  17:                  OutUTFString[UTF8CharLength++] = 0xc0 | ( UniChar >> 6 );

  18:                  OutUTFString[UTF8CharLength++] = 0x80 | ( UniChar & 0x3f );

  19:              }

  20:              else

  21:              {

  22:                  UTF8CharLength += 2;

  23:              }

  24:          }

  25:          else if(UniChar < 0x10000 )

  26:          {

  27:              if ( OutUTFString )

  28:              {

  29:                  OutUTFString[UTF8CharLength++] = 0xe0 | ( UniChar >> 12 );

  30:                  OutUTFString[UTF8CharLength++] = 0x80 | ( (UniChar >> 6) & 0x3f );

  31:                  OutUTFString[UTF8CharLength++] = 0x80 | ( UniChar & 0x3f );

  32:              }

  33:              else

  34:              {

  35:                  UTF8CharLength += 3;

  36:              }

  37:          }

  38:          else if( UniChar < 0x200000 )

  39:          {

  40:              if ( OutUTFString )

  41:              {

  42:                  OutUTFString[UTF8CharLength++] = 0xf0 | ( (int)UniChar >> 18 );

  43:                  OutUTFString[UTF8CharLength++] = 0x80 | ( (UniChar >> 12) & 0x3f );

  44:                  OutUTFString[UTF8CharLength++] = 0x80 | ( (UniChar >> 6) & 0x3f );

  45:                  OutUTFString[UTF8CharLength++] = 0x80 | ( UniChar & 0x3f );

  46:              }

  47:              else

  48:              {

  49:                  UTF8CharLength += 4;

  50:              }

51:

  52:          }

53:

  54:          return UTF8CharLength;

  55:      }

当OutUnicodeString为NULL时, 可以进行输出的Unicode字符串长度探测

   1:  uint32 UTF8StrToUnicode( const char* UTF8String, uint32 UTF8StringLength, wchar_t* OutUnicodeString, uint32 UnicodeStringBufferSize )

   2:      {

   3:          uint32 UTF8Index = 0;

   4:          uint32 UniIndex = 0;

5:

   6:          while ( UTF8Index < UTF8StringLength )

   7:          {

   8:              unsigned char UTF8Char = UTF8String[UTF8Index];

9:

  10:              if ( UnicodeStringBufferSize != 0 && UniIndex >= UnicodeStringBufferSize )

  11:                  break;

12:

  13:              if ((UTF8Char & 0x80) == 0)

  14:              {

  15:                  const uint32 cUTF8CharRequire = 1;

16:

  17:                  // UTF8字码不足

  18:                  if ( UTF8Index + cUTF8CharRequire > UTF8StringLength )

  19:                      break;

20:

  21:                  if ( OutUnicodeString )

  22:                  {

  23:                      wchar_t& WideChar = OutUnicodeString[UniIndex];

24:

  25:                      WideChar = UTF8Char;

  26:                  }

27:

  28:                  UTF8Index++;

29:

  30:              }

  31:              else if((UTF8Char & 0xE0) == 0xC0)  ///< 110x-xxxx 10xx-xxxx

  32:              {

  33:                  const uint32 cUTF8CharRequire = 2;

34:

  35:                  // UTF8字码不足

  36:                  if ( UTF8Index + cUTF8CharRequire > UTF8StringLength )

  37:                      break;

38:

  39:                  if ( OutUnicodeString )

  40:                  {

  41:                      wchar_t& WideChar = OutUnicodeString[UniIndex];

  42:                      WideChar  = (UTF8String[UTF8Index + 0] & 0x3F) << 6;

  43:                      WideChar |= (UTF8String[UTF8Index + 1] & 0x3F);

  44:                  }

45:

  46:                  UTF8Index += cUTF8CharRequire;

  47:              }

  48:              else if((UTF8Char & 0xF0) == 0xE0)  ///< 1110-xxxx 10xx-xxxx 10xx-xxxx

  49:              {

  50:                  const uint32 cUTF8CharRequire = 3;

51:

  52:                  // UTF8字码不足

  53:                  if ( UTF8Index + cUTF8CharRequire > UTF8StringLength )

  54:                      break;

55:

  56:                  if ( OutUnicodeString )

  57:                  {

  58:                      wchar_t& WideChar = OutUnicodeString[UniIndex];

59:

  60:                      WideChar  = (UTF8String[UTF8Index + 0] & 0x1F) << 12;

  61:                      WideChar |= (UTF8String[UTF8Index + 1] & 0x3F) << 6;

  62:                      WideChar |= (UTF8String[UTF8Index + 2] & 0x3F);

  63:                  }

64:

65:

  66:                  UTF8Index += cUTF8CharRequire;

  67:              }

  68:              else if((UTF8Char & 0xF8) == 0xF0)  ///< 1111-0xxx 10xx-xxxx 10xx-xxxx 10xx-xxxx

  69:              {

  70:                  const uint32 cUTF8CharRequire = 4;

71:

  72:                  // UTF8字码不足

  73:                  if ( UTF8Index + cUTF8CharRequire > UTF8StringLength )

  74:                      break;

75:

  76:                  if ( OutUnicodeString )

  77:                  {

  78:                      wchar_t& WideChar = OutUnicodeString[UniIndex];

79:

  80:                      WideChar  = (UTF8String[UTF8Index + 0] & 0x0F) << 18;

  81:                      WideChar  = (UTF8String[UTF8Index + 1] & 0x3F) << 12;

  82:                      WideChar |= (UTF8String[UTF8Index + 2] & 0x3F) << 6;

  83:                      WideChar |= (UTF8String[UTF8Index + 3] & 0x3F);

  84:                  }

85:

  86:                  UTF8Index += cUTF8CharRequire;

  87:              }

  88:              else ///< 1111-10xx 10xx-xxxx 10xx-xxxx 10xx-xxxx 10xx-xxxx

  89:              {

  90:                  const uint32 cUTF8CharRequire = 5;

91:

  92:                  // UTF8字码不足

  93:                  if ( UTF8Index + cUTF8CharRequire > UTF8StringLength )

  94:                      break;

95:

  96:                  if ( OutUnicodeString )

  97:                  {

  98:                      wchar_t& WideChar = OutUnicodeString[UniIndex];

99:

 100:                      WideChar  = (UTF8String[UTF8Index + 0] & 0x07) << 24;

 101:                      WideChar  = (UTF8String[UTF8Index + 1] & 0x3F) << 18;

 102:                      WideChar  = (UTF8String[UTF8Index + 2] & 0x3F) << 12;

 103:                      WideChar |= (UTF8String[UTF8Index + 3] & 0x3F) << 6;

 104:                      WideChar |= (UTF8String[UTF8Index + 4] & 0x3F);

 105:                  }

 106:

 107:                  UTF8Index += cUTF8CharRequire;

 108:              }

 109:

 110:

 111:              UniIndex++;

 112:          }

 113:

 114:          return UniIndex;

 115:      }

疗效: 用了此代码啊, 再也不用被iconv折磨了

跨平台Unicode与UTF8互转代码,布布扣,bubuko.com

时间： 2024-12-18 01:01:34

跨平台Unicode与UTF8互转代码的相关文章

c++ ANSI、UNICODE、UTF8互转

static std::wstring MBytesToWString(const char* lpcszString); static std::string WStringToMBytes(const wchar_t* lpwcszWString); static std::wstring UTF8ToWString(const char* lpcszString); static std::string WStringToUTF8(const wchar_t* lpwcs

Unicode与UTF-8互转（c语言和lua语言）

1. 基础 1.1 ASCII码我们知道, 在计算机内部, 全部的信息终于都表示为一个二进制的字符串. 每个二进制位(bit)有0和1两种状态, 因此八个二进制位就能够组合出 256种状态, 这被称为一个字节(byte). 也就是说, 一个字节一共能够用来表示256种不同的状态, 每个状态相应一个符号, 就是256个符号, 从 0000000到11111111. 上个世纪60年代, 美国制定了一套字符编码, 对英语字符与二进制位之间的关系, 做了统一规定. 这被称为ASCII码, 一直

ANSI、ASCII、Unicode和UTF-8编码

来自:http://blog.163.com/yang_jianli/blog/static/161990006201371451851274/ -------------------------------------------------------------------------------------------- 1.ANSI编码 unicode和ansi都是字符代码的一种表示形式. 为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符.比如

字符编解码的故事（ASCII，ANSI，Unicode，Utf-8区别）

好文分享UTF-8, 字符集, 编解码 (关于字符编码的深入解释,请参见我的原创文章<关于字符编码,你所需要知道的>.) 此文为转载,有少许修订,原文出处不详. 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出更多的状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"

字符编码笔记：ASCII，Unicode和UTF-8

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.八位的字节一共可以组合出256(2的8次方)种不同的状态. 他们把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终端.打印机遇上约

字符集编码与Python（二）Unicode与utf-8

Python中的Unicode和utf-8 上一篇提过了字符集的历史其中简单的讲解了Unicode与utf-8的关系,简单的总结一下: utf-8和utf-16 .utf-32是一类,实现的功能是一样的,只是utf-8使用的最为广泛,但是Unicode和utf-8并不是同一类,Unicode是表现形式,utf-8是存储形式 unicode是表现形式(utf-8可以解码成unicode) utf-8 .utf-16 .utf-32 是存储形式(unicode可以编码成utf-8) 理解:存储的时候

Qt实现16进制unicode转utf-8以及国际音标编码问题

由于项目需要,需要对网络资源进行解码.遇到编码问题.研究了下基本编码原理.于是有了下面两个通用代码 [cpp] view plaincopy 1. 16进制unicode转换为utf-8中文显示 QString unicodeToUtf_8(const QString &resStr) { // unicode转utf-8 思路: 一个unicode编码占用2字节.所以只需要用4个16进制数字结合表示就行了 QString temp; for (int i = 0; i< resStr.

[Python爬虫] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

最近研究搜索引擎.知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前.虽然市面上讲述中文编码问题的文章数不胜数,同时以前我也讲述过PHP处理数据库服务器中文乱码问题,但是此处还是准备简单做下笔记.方便以后查阅和大家学习. 中文编码问题的处理核心都是--保证所有的编码方式一致即可,包括编译器.数据库.浏览器编码方式等,而Python通常的处理流程是将unicode作为中间转换码进行过渡.先将待处理字符串用unicode函数以正确的编码转换为Unicode码,在程序中统一用Unicode字

Ansi UNICODE,GBK,UTF-8区别

http://my.oschina.net/saintzbs/blog/165034 http://my.oschina.net/saintzbs/blog/165034 http://www.cnblogs.com/cy163/archive/2007/05/31/766886.html 1:可以借助于文本编辑页面和Compare进行理解. Unicode.utf-8.GB2312等,但是在windows命令行里敲notepad进入文本编辑页面.保存时需要选择编码方式,但是不存在GB