Unicode字符集

Unicode字符集的出现是为了弥补ASCII码只能表示128个字符的限制。在实际应用中,如若我们想显示汉字或日文等等,显然使用ASCII是不可能的。Unicode占用了两个字节,即16位,能表示的字符高达65536。即使像汉字这样庞大的语言,也不过3W左右的字符,所以Unicode足够应付。当然实际中可能很少用到这种字符集,咱们可以将其作为一项拓展知识面来了解下。

在C语言中,我们有如下定义:char c=‘A‘;变量c只需要一个字节来保存,并用十六进制数0x41来初始化,0x41是A的ASCII码。

我们也可以定义:char *p = “hello!”;因为windows是一个32位的操作系统,所以指针变量p需要四个字节来保存。当然,后面的字符串需要7个字节来保存。

宽字符

Unicode或者宽字符都没有改变char数据型态在C中的含义。char继续表示1个字节的储存空间,sizeof (char)继续返回1。理论上,C中1个字节可比8位长,但对我们大多数人来说,1个字节(也就是1个char)是8位宽。

C中的宽字符基于wchar_t数据型态,它在几个表头文件包括WCHAR.H中都有定义,像这样:

typedef unsigned short wchar_t ;

因此,wchar_t数据型态与无符号短整数型态相同,都是16位宽。

要定义包含一个宽字符的变量,可使用下面的语句:

wchar_t c = ‘A‘ ;

变量c是一个双字节值0x0041,是Unicode表示的字母A。(然而,因为Intel微处理器从最小的字节开始储存多字节数值,该字节实际上是以0x41、0x00的顺序保存在内存中。如果检查Unicode文字的计算机储存应注意这一点。)

您还可定义指向宽字符串的指针:

wchar_t * p = L"Hello!" ;

注意紧接在第一个引号前面的大写字母L(代表「long」)。这将告诉编译器该字符串按宽字符保存-即每个字符占用2个字节。通常,指针变量p要占用4个字节,而字符串变量需要14个字节-每个字符需要2个字节,末尾的0还需要2个字节。

同样,您还可以用下面的语句定义宽字符数组:

static wchar_t a[] = L"Hello!" ;

该字符串也需要14个字节的储存空间,sizeof (a) 将返回14。索引数组a可得到单独的字符。a[1] 的值是宽字符「e」,或者0x0065。

虽然看上去更像一个印刷符号,但第一个引号前面的L非常重要,并且在两个符号之间必须没有空格。只有带有L,编译器才知道您需要将字符串存为每个字符2字节。稍后,当我们看到使用宽字符串而不是变量定义时,您还会遇到第一个引号前面的L。幸运的是,如果忘记了包含L,C编译器通常会给提出警告或错误信息。

您还可在单个字符文字前面使用L前缀,来表示它们应解释为宽字符。如下所示:

wchar_t c = L‘A‘ ;

但通常这是不必要的,C编译器会对该字符进行扩充,使它成为宽字符。

宽字符链接库函数

我们都知道如何获得字符串的长度。例如,如果我们已经像下面这样定义了一个字符串指针:

char * pc = "Hello!" ;

我们可以呼叫

iLength = strlen (pc) ;

这时变量iLength将等于6,也就是字符串中的字符数。

太好了!现在让我们试着定义一个指向宽字符的指针:

wchar_t * pw = L"Hello!" ;

再次呼叫strlen :

iLength = strlen (pw) ;

现在麻烦来了。首先,C编译器会显示一条警告消息,可能是这样的内容:

‘function‘ : incompatible types - from ‘unsigned short *‘ to ‘const char *‘

这条消息的意思是:声明strlen函数时,该函数应接收char类型的指标,但它现在却接收了一个unsigned short类型的指标。您仍然可编译并执行该程序,但您会发现iLength等于1。为什么?

字符串「Hello!」中的6个字符占用16位:

0x0048 0x0065 0x006C 0x006C 0x006F 0x0021

Intel处理器在内存中将其存为:

48 00 65 00 6C 00 6C 00 6F 00 21 00

假定strlen函数正试图得到一个字符串的长度,并把第1个字节作为字符开始计数,但接着假定如果下一个字节是0,则表示字符串结束。

strlen函数的宽字符版是wcslen(wide-character string length:宽字符串长度),并且在STRING.H(其中也说明了strlen)和WCHAR.H中均有说明。strlen函数说明如下:

size_t __cdecl strlen (const char *) ;

而wcslen函数则说明如下:

size_t __cdecl wcslen (const wchar_t *) ;

对于一段程序而言,但由于执行时期链接库函数有不同的名称(strlen,wcslen),为此需要定义不同的字符,但这将在处理前面带有L的字符串文字时遇到麻烦。

为解决此问题,windows提供一个TCHAR.H的表头文件。该头文件不是标准C的一部分,因此该头文件中所定义的每个函数个宏定义的前面都有一条底线。TCHAR.H为需要字符串参数的标准执行时期链接库的函数提供了一系列的替代名称(如_tcslen或者_tprintf)。有时这些名称也称为“通用”函数名称,因为他们即可以指向函数的Unicode版也可以指向非Unicode版。

针对计算字符串长度而言,TCHAR.H中声明了strlen()和wcslen()的通用函数_tcslen()函数;char和换字符wchar_t的通用变量TCHAR;以及_tcslen()函数中参数字符串以及宽字符串的通用参数_T(x)或_TEXT(x)。

那么程序调用链接库的时候是如何知道通用函数或通用类型等等代表哪个函数或类型呢?

如果定义了名为_UNICODE的标识符,并且程序中包含了TCHAR.H表头文件,那么_tcslen就定义为wcslen:

#define _tcslen wcslen

如果没有定义UNICODE,则_tcslen定义为strlen:

#define _tcslen strlen

等等。TCHAR.H还用一个新的数据型态TCHAR来解决两种字符数据型态的问题。如果定义了_UNICODE标识符,那么TCHAR就是wchar_t:

typedef wchar_t TCHAR ;

否则,TCHAR就是Char:

typedef char TCHAR ;

现在开始讨论字符串文字中的L问题。如果定义了_UNICODE标识符,那么一个称作__T的宏就定义如下:

#define __T(x) L##x

这是相当晦涩的语法,但合乎ANSI C标准的前置处理器规范。那一对井字号称为「粘贴符号(token paste)」,它将字母L添加到宏参数上。因此,如果宏参数是"Hello!",则L##x就是L"Hello!"。

如果没有定义_UNICODE标识符,则__T宏只简单地定义如下:

#define __T(x) x

此外,还有两个宏与__T定义相同:

#define _T(x)__T(x)

#define _TEXT(x)__T(x)

在Win32 console程序中使用哪个宏,取决于您喜欢简洁还是详细。基本地,必须按下述方法在_T或_TEXT宏内定义字符串文字:

_TEXT ("Hello!")

这样做的话,如果定义了_UNICODE,那么该串将解释为宽字符的组合,否则解释为8位的字符字符串。

时间: 2024-12-07 15:38:30

Unicode字符集的相关文章

刨根究底字符编码之十——Unicode字符集的字符编码方式CEF以及码点、码元

Unicode字符集的字符编码方式CEF以及码点.码元 一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两个或两个以上字节. 比如,汉字"严"的Unicode码(Unicode码点值.Unicode编号)是十六进制数4E25,转换成二进制数有15位(100 1110 0010 0101),对"严"这个字符的编号进行编码的话,至少需要2个字节.表示其他更大编号

多字节字符集与Unicode字符集

在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset). 多字节字符集: 在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个 字符,总共表示128个字符,其中包括了 英文字母.数字.标点符号等常用字符.之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号.后来,由于各国语言的加入,

【JavaScript】浅析javaScript和HTML与unicode字符集的关系

目录结构: javaScript和HTML支持的字符集 javaScript和HTML如何表现unicode字符集 参考文章 javaScript和HTML支持的字符集 JavaScript是支持unicode的. 现代的浏览器在网页中都支持ASCII字符集.ISO字符集.数学符号.希腊字母.其他符号.HTML5默认使用UTF-8.读者可以点击这儿查看ASCII.unicode和utf-8的关系. javaScript和HTML如何表现unicode字符集 HTML页面使用的是网页文档对象,它是

如何理解Java程序使用Unicode字符集编写

Java采用UTF-16编码作为内码,也就是说在JVM内部,文本是用16位码元序列表示的,常用的文本就是字符(char)和字符串(String)字面常量的内容.注:UTF-16是Unicode字符集的一种编码方案. Java字符和字符串存在于以下几个地方: Java源码文件,*.java,可以是任意字符编码,如GBK,UTF-8 Class文件,*.class,采用的是一种改进的UTF-8编码(Modified UTF-8) JVM,内存中使用UTF-16编码 Java编译器需要正确的读取源码,

使用 “Unicode 字符集 ” 使用错误,应该使用 “使用多字节字符集”

“void ATL::CStringT<BaseType,StringTraits>::Format(const wchar_t *,...)”: 不能将参数 1 从“const char [29]” 出现上面的问题,应该使用多字节字符集 案例地址,百度知道引用 问题: “void ATL::CStringT<BaseType,StringTraits>::Format(const wchar_t *,...) CString strDate,strTime; SYSTEMTIME

通过编写串口助手工具学习MFC过程&mdash;&mdash;(三)Unicode字符集的宽字符和多字节字符转换

通过编写串口助手工具学习MFC过程 因为以前也做过几次MFC的编程,每次都是项目完成时,MFC基本操作清楚了,但是过好长时间不再接触MFC的项目,再次做MFC的项目时,又要从头开始熟悉.这次通过做一个串口助手再次熟悉一下MFC,并做了一下记录,以便方便以后查阅.做的过程中多是遇到问题直接百度和谷歌搜索来的,所以很多都是不求甚解,知其然不知其所以然.另外做此工具只是为了熟悉了解,许多功能还没有完善!(开发工具VS2008) (三)Unicode字符集的宽字符和多字节字符转换 在上一节<(二)通过&qu

C# Unicode字符集批量转码为汉字(互转)

到网上不少地方传输中文的时候用的是类似/u4e2d/u56fd的字符,就是Unicode编码的字符,想知道具体什么内容,又不容易看出来,所以想把这个字符集解码为正常的字符.开始我通过Encoding转换编码格式,发现行不通,怎么都不能正常解开,然后在网上淘了些类似的解码方案,有可行的,不过我发现写的有点麻烦,而且如果我成批的Unicode字符就无法直接输出了,然后我看呀看呀看,终于,我发现了char类的两个方法:一个是char.ConvertFromUtf32,注释说:将指定的Unicode码位

Unicode字符集,各个语言的区间

7.4 Unicode字符集 为了使不同的字符集能够处理好不同的文字和语言,必须满足: 1.      不同时引用多种文字. 2.        不与使用不同字符集的人交换文件. 由于Mac和PC机都使用不同的字符集,越来越多的人无法遵循以上原则.很明显的是需要一种得到大家的认可并且编码了全世界各种文字的字符集.建立这样的字符集很难,需要对成百上千种语言和文字有细致的了解.要使软件开发商们同意使用这种字符集就更难了.不过这方面的努力一直在进行,终于创建了一个符合要求的字符集Unicode.而且主

字符集研究之多字节字符集和unicode字符集

作者:朱金灿 来源:http://blog.csdn.net/clever101 本文简介计算机中两大字符集:多字节字符集和unicode字符集的出现及关系. 首先我们须要明确的是计算机是怎样找到字符的,原来计算机通过一个字符编号来找到字符,这个和学校里每一个学生都有一个学号相似.这里的字符编号和相应的字符就构成了一个字符集.由于计算机最早是在英语国家诞生的,大多数英文信息是由英文字母.数字以及一些其他字符构成了一个128个字符的ASCII字符集.本来这对于英语国家来说够用了.可是随着计算机的普