char到wchar的转换实质

1、从char到wchar_t

“这个问题比你想象中复杂”

从字符到整数

char 是一种整数类型,这句话的含义是,char所能表示的字符在C/C++中都是整数类型。好,接下来,很多文章就会举出一个典型例子,比如,‘a‘的数值就是0x61。这种说法对吗?如果你细心的读过K&R和BS对于C和C++描述的原著,你就会马上反驳道,0x61只是‘a‘的ASCII值,并没有任何规定C/C++的char值必须对应ASCII。C/C++甚至没有规定char占几位,只是规定了sizeof(char)等于1。

当然,目前大部分情况下,char是8位的,并且,在ASCII范围内的值,与ASCII对应。

本地化策略集(locale)

“将 ‘a‘翻译成0x61的整数值”,“将ASCII范围内的编码与char的整数值对应起来”,类似这样的规定,是特定系统和特定编译器制定的,C/C++ 中有个特定的名词来描述这种规定的集合:本地化策略集(locale。也有翻译成“现场”)。而翻译——也就是代码转换(codecvt)只是这个集合中的一个,C++中定义为策略(facet。也有翻译为“刻面”)

C/C++的编译策略

“本地化策略集”是个很好的概念,可惜在字符和字符串这个层面上,C/C++并不使用(C++的locale通常只是影响流(stream)),C/C++使用更直接简单的策略:硬编码。

简单的说,字符(串)在程序文件(可执行文件,非源文件)中的表示,与在程序执行中在内存中的表示一致。考虑两种情况:

A、char c = 0x61;

B、char c = ‘a‘;

情况A下,编译器可以直接认识作为整数的c,但是在情况B下,编译器必须将‘a‘翻译成整数。编译器的策略也很简单,就是直接读取字符(串)在源文件中的编码数值。比如:

const char* s = "中文abc";

这段字符串在GB2312(Windows 936),也就是我们的windows默认中文系统源文件中的编码为:

0xD6   0xD0   0xCE 0xC4 0x61 0x62 0x63

在UTF-8,也就是Linux默认系统源文件中的编码为:

0xE4   0xB8   0xAD   0xE6   0x96   0x87   0x61   0x62   0x63

一般情况下,编译器会忠实于源文件的编码为s赋值,例外的情况比如VC会自作聪明的把大部分其他类型编码的字符串转换成GB2312(除了像UTF-8 without signature这样的幸存者)。

程序在执行的时候,s也就保持是这样的编码,不会再做其他的转换。

宽字符 wchar_t

正如char没有规定大小,wchar_t同样没有标准限定,标准只是要求一个wchar_t可以表示任何系统所能认识的字符,在win32 中,wchar_t为16位;Linux中是32位。wchar_t同样没有规定编码,因为Unicode的概念我们后面才解释,所以这里只是提一下,在 win32中,wchar_t的编码是UCS-2BE;而Linux中是UTF-32BE(等价于UCS-4BE),不过简单的说,在16位以内,一个字符的这3种编码值是一样的。因此:

const wchar_t* ws = L"中文abc";

的编码分别为:

0x4E2D   0x6587    0x0061   0x0062   0x0063                                                //win32,16位

0x00004E2D   0x00006587    0x00000061   0x00000062   0x00000063        //Linux,32位

大写的L是告诉编译器:这是宽字符串。所以,这时候是需要编译器根据locale来进行翻译的。

比如,在Windows环境中,编译器的翻译策略是GB2312到UCS-2BE;Linux环境中的策略是UTF-8到UTF-32BE。

这时候就要求源文件的编码与编译器的本地化策略集中代码翻译的策略一致,例如VC只能读取GB2312的源代码(这里还是例外,VC太自作聪明了 ,会将很多其他代码在编译时自动转换成GB2312),而gcc只能读取UTF-8的源代码(这里就有个尴尬,MinGW运行win32下,所以只有 GB2312系统才认;而MinGW却用gcc编写,所以自己只认UTF-8,所以结果就是,MinGW的宽字符被废掉了)。

宽字符(串)由编译器翻译,还是被硬编码进程序文件中。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-09-30 15:38:10

char到wchar的转换实质的相关文章

char向wchar的转换-MultiByteToWideChar

问题产生 使用CreateFile函数,如下: CreateFile(lpcTheFile, GENERIC_READ, 0, NULL, OPEN_ALWAYS, FILE_ATTRIBUTE_NORMAL, NULL) 第一个参数是wchar类型,而我从配置文件中读入的文件路径是char类型,因此涉及到char至wchar的转换问题 问题解决 使用MultiByteToWideChar函数函数代码如下: DWORD dwPathLen = MultiByteToWideChar(CP_ACP

c++ char*和wchar*互相转换(转)

原文地址: 1.c++ char*和wchar*互相转换 2.C++ WINDOWS下 wchar_t *和char * 相互转化总结篇 原文地址:https://www.cnblogs.com/jixiaohua/p/12169275.html

stl中char 与wchar 的转换

学习记录: stl中 字符串 str自然对应的是string 宽字符串wchar 对应的是wstring 宽字符串占用两个字节 两者的转换有三种办法 1 windows 的api转换函数WideCharToMultiByte()与MultiByteToWideChar(). 不适合跨平台使用. 2 ATL中CA2W类与CW2A类.或者使用A2W宏与W2A宏.稍显累赘和麻烦 3 使用CRT库的函数 函数和使用方法见下列代码 #include <string> #include <iostr

c、c++ char*和wchar*互相转换

1. 问题描述 编写程序时通常会面对一些不同的编码格式,如Unicode和multibytes.在有关字符串的处理时尤其重要,系统编程时通常会遇到很多这样的问题,例如把wchar*的字符串转换为char*的字符串,有时还需要把char*类型的字符串转换为wchar*类型.下面提供几种解决方案.2. 解决方案2.1 wchar* 转到 char* 方法一,使用_bstr_t转换. 1. 问题描述 编写程序时通常会面对一些不同的编码格式,如Unicode和multibytes.在有关字符串的处理时尤

char,wchar_t,WCHAR,TCHAR,ACHAR的区别----LPCTSTR

转自http://blog.chinaunix.net/uid-7608308-id-2048125.html 简介:这是DWORD及LPCTSTR类型的了解的详细页面,介绍了和类,有关的知识,加入收藏请按键盘ctrl+D,谢谢大家的观看!要查看更多有关信息,请点击此处 首先声明,这都是在网上找的资料,我再整理修改的: 一:关于DWORD DWORD就是32bit的unsigned  long无符号长整型,DWORD是双字类型 ,4个字节,API函数中有很多参数和返回值是DWORD的. 二:如何

char*,const char*和string 三者转换

1. const char* 和string 转换 (1) const char*转换为 string,直接赋值即可. EX: const char* tmp = "tsinghua". string s = tmp; (2) string转换为const char*,利用c_str() EX:  string s = "tsinghua"; const char*tmp = s.c_str(); 2. char*和const char*之间的转换 (1) cons

char*,string,float,int 转换

char* 转 float: double atof (const char* str); /* atof example: sine calculator */ #include <stdio.h> /* printf, fgets */ #include <stdlib.h> /* atof */ #include <math.h> /* sin */ int main () { double n,m; double pi=3.1415926535; char bu

char类型的数值转换

在视频教程中,你已经认识到了数字类型之间.字符串和其他类型之间的转换.而某些时候,我们还需要将char类型转换为int类型,或者把int类型转换为char类型. 这篇文章,将介绍在代码中虽然不太常用,但也需要了解的知识. char类型的数值转换 char转为int int转为char 字符数据的运算 char转为int 一个字符 '汉' 怎么可能转换为数字呢? 实际上是可以的,在之前的补充资料中已经说到,计算机对字符的存储,是使用某种编码规则对应的数字来存储的. 在C#语言中,使用Unicode

qt上的char * 和 QString互相转换

使用Qt开发嵌入式时,常引用一些C语言的驱动,那就涉及到QString和char *之间的互相转换,方法如下,直接上代码:    // char[]转QString     unsigned char buf[3]={0x2,0x56,0xff};     QString str;     for(int i =0;i < sizeof(buf)/sizeof(buf[0]);i++)     {         str += QString::number(buf[i]);     }