ANSI与UINCODE编码

简要说明:

  • ANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。
  • Uincode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。

优缺点:

  • Ansi用char表示一个字符,占用一个字节储存空间。所以Ansi字符码最多支持255个字符,表示英文还可以,但对于中文、日文、韩文等语言来说就不够用了。
  • Uincode用unsigned short表示一个字符,定义成wchar_t,占用两个字节储存空间。所以Uincode字符码基本支持90%的自然语言。缺点:空间占用翻倍,网络传输量变大。


ANSI码 = 窄字符

Uincode = 宽字符



◆字符码数据类型:

● Ansi: char、char * 、const char *                  C++

     CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR           VC++

● Unicode: wchar_t、wchar_t * 、const wchar_t *

     WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR

● T 通用类型: TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR

以上,其中:P代表指针的意思,STR代表字符串的意思,L是长指针的意思,在WIN32平台下可以忽略,C代表const常量的意思,W代表wide宽字节的意思,T大家可以理解为通用类型的意思,  

通用类型是微软为了方便使用定义的通用字符类型,在不同的编码环境下,会根据是否定义了_UINCODE宏,自动会转化为char 或 wchar_t;



◆ 字符串类型的对象的定义:

● Ansi:char *pAnsiStr = "hello";

● Unicode:wchar_t *pUnicodeStr = L"hello";

● 通用类型:TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");

● 动态申请内存:TCHAR *pszBuf = new TCHAR[100];                  //标示符很重要

其中,_TEXT 和 _T 是一样的,定义如下:

#define _T(x)       __T(x) 

#define _TEXT(x)    __T(x)

//来看看 __T 的最终定义: 

#ifdef  _UNICODE 

#define __T(x)      L##x       //转换Uincode

#else 

#define __T(x)      x         //等于本身

#endif

其中,##为连接起来的意思。



◆ 常用的字符串处理函数,具体信息见MSDN:

字符串长度:

● Ansi:strlen(char *str);                //获取字符串长度,cs为cstring缩写,len为length,w,_t字符串类型。方便记忆。也可以查询MSDN

● Unicode:wcslen(wchar_t *str);

● 通用函数:_tcslen(TCHAR *str);

● Ansi:int atoi(const char *str);            //转换为数字,atoi,_wtoi,_tstoi.可以按照不同的颜色去记忆。分别为字符串类型+to+转换类型。

● Unicode:int _wtoi(const wchar_t *str);

● 通用函数:_tstoi(const TCHAR *str);

字符串拷贝:

● Ansi:strcpy(char *strDestination, const char *strSource); //获取字符串长度,cs为cstring缩写,cpy为copy,w,_t字符串类型。方便记忆。也可以查询MSDN

● Unicode:wcscpy(wchar_t *strDestination, const wchar_t *strSource);

● 通用函数:_tcscpy(TCHAR *strDestination, const TCHAR *strSource);

以上函数不安全,在vs2003等以上版本的编译器中会有warnning警告提示,以下为安全函数(vc++6.0不支持):

● Ansi:strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource);//_s可以理解为safe缩写,保险的。

● Unicode:wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource);

● 通用函数:_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource);

numberOfElements Size of the destination string buffer. 目的缓冲区的大小,以字节为单位,不是字符!

size_t unsigned integer,在MSDN中的解释:Result of sizeof operator,也就是说 size_t 是 unsigned integer 即无符号整数。那为什么会有size_t这个类型呢? 因为不同平台的操作系统(32/64)中 int/long 等类型所占的字节并不一样,而 size_t 在不同的平台下有不同的定义。有点类似于TCHAR类型:

#ifndef   _SIZE_T_DEFINED   

  #ifdef     _WIN64   

  typedef   unsigned   __int64         size_t;   //8个字节,64位  

  #else   

  typedef   _W64   unsigned   int       size_t;   //4个字节,32位   

  #endif   

  #define   _SIZE_T_DEFINED 

#endif


◆ 字符串占用字节数:

● Ansi:

char szStr[] = "abc";

占用字节数求法:sizeof(szStr);

char *psz = "defgh";

占用字节数求法:strlen(psz)*sizeof(char);

● Unicode:

wchar_t szwStr[] = L"abc";

占用字节数求法:sizeof(szwStr);

wchar_t *pwsz = L"defgh";

占用字节数求法:wcslen(pwsz)*sizeof(wchar_t);

● 通用函数:

TCHAR szStr[] = _T("abc");

占用字节数求法:sizeof(szStr);

TCHAR *psz = _T("defgh");

占用字节数求法:_tcslen(psz)*sizeof(TCHAR);



◆转换用到的最根本的 API 函数:

WideCharToMultiByte 实现宽字节转换到窄字节          //函数参数自行查询MSDN。

MultiByteToWideChar 实现窄字节转换到宽字节          

WideCharToMultiByte 的代码页用来标记与新转换的字符串相关的代码页;

MultiByteToWideChar 的代码页用来标记与一个多字节字符串相关的代码页,

[1]、常用的代码页有 CP_ACP 和 CP_UTF8 两个: 使用 CP_ACP 代码页就实现了 ANSI 与 Unicode 之间的转换;

    使用 CP_UTF8 代码页就实现了 UTF-8 与 Unicode 之间的转换。

[2]、dwFlags 参数允许我们进行额外的控制,但是,一般情况下都不使用这个标志,直接传递 0 就行了。

[3]、lpDefaultChar和pfUsedDefaultChar:

只有当WideCharToMultiByte函数遇到一个宽字节字符,而该字符在uCodePage参数标识的代码页中并没有它的表示法时,WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换,该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL(这是大多数情况下的参数值),那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的,因为问号是个通配符。pfUsedDefaultChar参数指向一个布尔变量,如果Unicode字符串中至少有一个字符不能转换成等价多字节字符,那么函数就将该变量置为TRUE。如果所有字符均被成功地转换,那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后,可以测试该变量。

● 两个转换函数的使用举例:

char *cctryWideCharToAnsi(wchar_t *pWideChar)
{
	if (!pWideChar) return NULL;
	char *pszBuf = NULL;
	int needBytes = WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, NULL, 0, NULL, NULL);
	if (needBytes > 0){
		pszBuf = new char[needBytes+1];
		ZeroMemory(pszBuf, (needBytes+1)*sizeof(char));
		WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, pszBuf, needBytes, NULL, NULL);
	}

	return pszBuf;
}

wchar_t *cctryAnsiCharToWide(char *pChar)
{
	if (!pChar) return NULL;
	wchar_t *pszBuf = NULL;
	int needWChar = MultiByteToWideChar(CP_ACP, 0, pChar, -1, NULL, 0);
	if (needWChar > 0){
		pszBuf = new wchar_t[needWChar+1];
		ZeroMemory(pszBuf, needWChar+1);
		MultiByteToWideChar(CP_ACP, 0, pChar, -1, pszBuf, needWChar);
	}

	return pszBuf;
}

使用过后千万别忘记释放空间

◆宏转换

A2W、W2A、T2A、T2W 宏的使用以及注意事项:
[1]、使用 alloca() 函数进行空间的申请,宏返回的地址空间是从栈上面申请的,那么以后就不必释放,这样就涉及到了一个作用域的问题,具体见MSDN,
大家可以简单的理解为“向下兼容”.
[2]、不要在一个函数的循环体中使用 A2W 等字符转换宏,可能引起栈溢出。
比如:

#include <atlconv.h>
void func()
{
    while(true)
    {
        {
            USES_CONVERSION;
            testFunc(A2W("abc"));
        }
    }
}
时间: 2024-12-17 06:42:03

ANSI与UINCODE编码的相关文章

ANSI与Unicode编码,TCHAR | LPSTR | LPCSTR | LPWSTR | LPCWSTR | LPTSTR | LPCTSTR 的含义

一个字符可以用1-byte表示,即ANSI编码: 一个字符也可用2-bytes表示,即Unicode编码(Unicode其实还包含了更多内容,不止2-bytes). Visual C++支持char和wchar_t作为ANSI和Unicode的原始数据类型. 例如 char cResponse; // 'Y' or 'N' char sUsername[64]; // str* functions 以及 wchar_t cResponse; // 'Y' or 'N' wchar_t sUser

ASCII、ANSI、Unicode编码

3.1 ASCII编码 以下来自"维基百科": ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于拉丁字母的一套电脑编码系统.它主要用于显示现代英语,而其扩展版本EASCII则可以勉强显示其他西欧语言.它是现今最通用的单字节编码系统(但是有被UniCode追上的迹象),并等同于国际标准ISO/IEC 646. ASCII第一次以规范标准的型态发表是在1967年,最后一次更新则是在1986年,至今

unicode,ansi,utf-8,unicode big endian编码的区别

作者:于洋链接:https://www.zhihu.com/question/23374078/answer/69732605来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这

【转】【编码】ANSI,ASCII,Unicode,UTF8

不同的国家和地区制定了不同的标准,由此产生了 GB2312.GBK.GB18030.Big5.Shift_JIS 等各自的编码标准.这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码.在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码:在繁体中文Windows操作系统中,ANSI编码代表Big5:在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码.不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解

转自:http://blog.csdn.net/lvxiangan/article/details/8151670 GBK,ISO-8859-1,GB2312的本质区别编码有几种 ,计算机最初是在美国等国家发明的 所以表示字符只有简单的几个字母只要对字母进行编码就好 我们标准码 iso-8859-1 这就是一个标准但是后来计算机普及了 于是就中国要使用计算机了 但是机器不认得中文,于是就有了国际码. gbk gb2312都是这类.两个其实一个,一个是标准(发布的代号),一个是简称.后来多了个阿拉

趣谈unicode,ansi,utf-8,unicode big endian这些编码有什么区别(转载)

从头讲讲编码的故事.那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起.嗯,也许这样开始比较好…… 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.八位的

字符编码的故事(ASCII,ANSI,Unicode,Utf-8区别)转载

http://www.imkevinyang.com/2009/02/字符编解码的故事(ascii,ansi,unicode,utf-8区别).html 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出更多的状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机"

常见的几种编码(ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)介绍

转载:http://blog.jobbole.com/30526/ 编码一直是让新手头疼的问题,特别是 GBK.GB2312.UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚.但是编码又是那么重要,特别在网页这一块.如果你打出来的不是乱码,而网页中出现了乱码,绝大部分原因就出在了编码上了.此外除了乱码之外,还会出现一些其他问题(例如:IE6 的 CSS 加载问题)等等.我写本文的目的,就是要彻底解释清楚这个编码问题!如果你遇到了类似的问题,那就要仔细的看看

Windows程序员必须知道的字符编码和字符集

 字符编码 (Character encoding) 在存储和传递文本过程中,为了使得所有电脑都能够正确的识别出文本内容,需要有一个统一的规则. 2. 字符集 (Character Set) ) 一般情况,一种编码方式对应一种字符集.如 ASCII,对应 ASCII 字符集.GBK 编码方式对应 GBK 字符集.但是也有一种编码方式,多种字符集的,Unicode 字符集有多种编码方式,如 utf-8,utf-16 等.  3.  ASCII ASCII(American Standard Cod