宽字节与多字节互相转换

这里需要用到两个函数:WideCharToMultiByte 与 MultiByteToWideChar

前者是从宽字节转换为多字节,后者则相反,是从多字节转换为宽字节。下面介绍下这两个函数:

WideCharToMultiByte

该函数可以映射一个unicode字符串到一个多字节字符串,执行转换的代码页、接收转换字符串、允许额外的控制等操作。

WideCharToMultiByte(
_In_ UINT CodePage,   // 指定执行转换的代码页,这个参数可以为系统已安装或有效的任何代码页所给定的值
_In_ DWORD dwFlags, // 一组位标记用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象形文字替代控制字符,以及如何处理无效字符
_In_NLS_string_(cchWideChar) LPCWCH lpWideCharStr, // 指向将被转换的unicode字符串
_In_ int cchWideChar, // 指定由参数lpWideCharStr指向的缓冲区的字符个数。如果这个值为-1,字符串将被设定为以NULL为结束符的字符串,并且自动计算长度
_Out_writes_bytes_to_opt_(cbMultiByte, return) LPSTR lpMultiByteStr,// 指向接收被转换字符串的缓冲区   
_In_ int cbMultiByte, // 指定由参数lpMultiByteStr指向的缓冲区最大值(用字节来计量)。若此值为零,函数返回lpMultiByteStr指向的目标缓冲区所必需的字节数,在这种情况下,lpMultiByteStr参数通常为NULL
_In_opt_ LPCCH lpDefaultChar, // 遇到一个不能转换的宽字符,函数便会使用pDefaultChar参数指向的字符
_Out_opt_ LPBOOL lpUsedDefaultChar // 至少有一个字符不能转换为其多字节形式,函数就会把这个变量设为TRUE
);

需要注意最后两个参数lpDefaultChar和pfUsedDefaultChar:只有当WideCharToMultiByte函数遇到一个宽字节字符,而该字符在uCodePage参数标识的代码页中并没有它的表示法时,WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换,该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL(这是大多数情况下的参数值),那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的,因为问号是个通配符。pfUsedDefaultChar参数指向一个布尔变量,如果Unicode字符串中至少有一个字符不能转换成等价多字节字符,那么函数就将该变量置为TRUE。如果所有字符均被成功地转换,那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后,可以测试该变量。

返回值:如果函数运行成功,并且cchMultiByte不为零,返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数;如果函数运行成功,并且cchMultiByte为零,返回值是接收到待转换字符串的缓冲区所必需的字节数。如果函数运行失败,返回值为零。

MultiByteToWideChar

该函数可以映射一个多字节字符串到一个unicode字符串

MultiByteToWideChar(
    _In_ UINT CodePage,  // 指定执行转换的字符集,这个参数可以为系统已安装或有效的任何字符集所给定的值
    _In_ DWORD dwFlags,  // 一组位标记用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象形文字替代控制字符,以及如何处理无效字符。
    _In_NLS_string_(cbMultiByte) LPCCH lpMultiByteStr,  // 指向将被转换字符串的字符。
    _In_ int cbMultiByte,  // 指定将被转换的字符串中字节的个数。如果lpMultiByteStr指定的字符串以空字符终止,可以设置为-1(如果字符串不是以空字符中止,设置为-1可能失败,可能成功),此参数设置为0函数将失败。
    _Out_writes_to_opt_(cchWideChar, return) LPWSTR lpWideCharStr,  // 指向接收被转换字符串的缓冲区
    _In_ int cchWideChar  // 指定接收被转换字符串缓冲区的宽字符个数。若此值为零,函数返回缓冲区所必需的宽字符数,在这种情况下,lpWideCharStr中的缓冲区不被使用。
    );

返回值:如果函数运行成功,并且cchWideChar不为零,返回值是由lpWideCharStr指向的缓冲区中写入的宽字符数;如果函数运行成功,并且cchWideChar为零,返回值是接收到待转换字符串的缓冲区所需求的宽字符数大小。如果函数运行失败,返回值为零。

/************************************************************************/
/* Project:    宽字节与多字节互相转换                                        */
/* Author:    LandyTan                                                    */
/* Time:    2017/11/04                                                    */
/************************************************************************/

#include <iostream>
#include <Windows.h>
using namespace std;

char* _WTA(__in wchar_t* pszInBufBuf, __in int nInSize, __out char** pszOutBuf, __out int* pnOutSize);
wchar_t* _ATW(__in char* pszInBuf, __in int nInSize, __out wchar_t** pszOutBuf, __out int* pnOutSize);

int main()
{
    {
        char* pszIn = "Hello";
        wchar_t* pszOut = NULL;
        int nOutSize = 0;
        if (!_ATW(pszIn, strlen(pszIn), &pszOut, &nOutSize))
            cerr << "多字节转宽字节失败" << endl;
        else cout << "多字节:" << pszIn << "\t宽字节:" << pszOut << endl;
        delete[] pszOut;
        pszOut = NULL;
    }

    {
        wchar_t* pszIn = L"Hello";
        char* pszOut = NULL;
        int nOutSize = 0;
        if (!_WTA(pszIn, wcslen(pszIn), &pszOut, &nOutSize))
            cerr << "宽字节转多字节失败" << endl;
        else cout << "宽字节:" << pszIn << "\t多字节:" << pszOut << endl;
        delete[] pszOut;
        pszOut = NULL;
    }

    system("pause");
    return 0;
}

/************************************************************************/
/* Name:        _ATW                                                    */
/* Function:    多字节转宽字节                                            */
/* Parameter list:                                                        */
/*                pszInBuf        被转换的字符串                            */
/*                nInSize            字符串长度                                */
/*                pszOutBuf        接收转换的字符串                            */
/*                pnOutSize        接收字符串的长度                            */
/************************************************************************/
wchar_t* _ATW(__in char* pszInBuf, __in int nInSize, __out wchar_t** pszOutBuf, __out int* pnOutSize)
{
    if(!pszInBuf || !pszOutBuf || !pnOutSize || nInSize <= 0)return NULL;
    *pnOutSize = MultiByteToWideChar(NULL, NULL, pszInBuf, nInSize, *pszOutBuf, 0);// 获取待转换字符串的缓冲区所需大小
    if(*pnOutSize == 0)return NULL;
    (*pnOutSize)++;
    *pszOutBuf = new wchar_t[*pnOutSize];
    memset((void*)*pszOutBuf, 0, sizeof(wchar_t) * (*pnOutSize));
    if(MultiByteToWideChar(NULL, NULL, pszInBuf, nInSize, *pszOutBuf, *pnOutSize) == 0)  // 这里才是转换
        return NULL;
    else return *pszOutBuf;
}

/************************************************************************/
/* Name:        _WTA                                                    */
/* Function:    宽字节转多字节                                            */
/* Parameter list:                                                        */
/*                pszInBuf        被转换的字符串                            */
/*                nInSize            字符串长度                                */
/*                pszOutBuf        接收转换的字符串                            */
/*                pnOutSize        接收字符串的长度                            */
/************************************************************************/
char* _WTA(__in wchar_t* pszInBuf, __in int nInSize, __out char** pszOutBuf, __out int* pnOutSize)
{
    if(!pszInBuf || !pszOutBuf || !pnOutSize || nInSize <= 0)return NULL;
    *pnOutSize = WideCharToMultiByte(NULL, NULL, pszInBuf, nInSize, *pszOutBuf, 0, NULL, NULL);// 获取待转换字符串的缓冲区所需大小
    if(*pnOutSize == 0)return NULL;
    (*pnOutSize)++;
    *pszOutBuf = new char[*pnOutSize];
    memset((void*)*pszOutBuf, 0, sizeof(char)* (*pnOutSize));
    if (WideCharToMultiByte(NULL, NULL, pszInBuf, nInSize, *pszOutBuf, *pnOutSize, NULL, NULL) == 0) // 这里才是转换
        return NULL;
    else return *pszOutBuf;
}
时间: 2024-08-29 21:03:57

宽字节与多字节互相转换的相关文章

通过编写串口助手工具学习MFC过程&mdash;&mdash;(三)Unicode字符集的宽字符和多字节字符转换

通过编写串口助手工具学习MFC过程 因为以前也做过几次MFC的编程,每次都是项目完成时,MFC基本操作清楚了,但是过好长时间不再接触MFC的项目,再次做MFC的项目时,又要从头开始熟悉.这次通过做一个串口助手再次熟悉一下MFC,并做了一下记录,以便方便以后查阅.做的过程中多是遇到问题直接百度和谷歌搜索来的,所以很多都是不求甚解,知其然不知其所以然.另外做此工具只是为了熟悉了解,许多功能还没有完善!(开发工具VS2008) (三)Unicode字符集的宽字符和多字节字符转换 在上一节<(二)通过&qu

windows下多字节和宽字节转换

先简单说下什么是多字节和宽字节. 多字节是指使用多个字节(1-3)表示一个字符.比如gbk使用英文占一个字节,中文占2个,这个就是多字节了.utf-8是使用1-3个字节表示字符.还有big5等等. 宽字节一般是固定使用2个字节表示一个字符,utf-16(一般就是指unicode). 1.MultiByteToWideChar 多字节转宽字节 2.WideCharToMultiByte 宽字节转多字节 3.和utf8有关的字符转换,代码页CodePage=CP_UTF8. 4.代码页CodePag

关于多字节、宽字节、WideCharToMultiByte和MultiByteToWideChar函数的详解

所谓的短字符,就是用8bit来表示的字符,典型的应用是ASCII码. 而宽字符,顾名思义,就是用16bit表示的字符,典型的有UNICODE. ********************************第一个就是宽字符到多字节字符转换函数,函数原型如下: int WideCharToMultiByte( UINT CodePage, DWORD dwFlags, LPCWSTR lpWideCharStr, int cchWideChar, LPSTR lpMultiByteStr, in

那些年我们一起挖掘SQL注入 - 5.全局防护Bypass之宽字节注入

0x01 背景 首先我们了解下宽字节注入,宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而导致的注入漏洞.具体原理如下:1.正常情况下当GPC开启或使用addslashes函数过滤GET或POST提交的参数时,黑客使用的单引号 ' 就会被转义为: \':2.但如果存在宽字节注入,我们输入%df%27时首先经过上面提到的单引号转义变成了%df%5c%27(%5c是反斜杠\),之后在数据库查询前由于使用了GBK多

宽字符、多字节、unicode、utf-8、gbk编码转化

今天遇到一个编码的问题,困惑了我很长时间,所以就简要的的了解了一下常用的编码类型. 我们最常见的是assic编码,它是一种单字节编码,对多容纳256个字符. 我们在编程的时候经常遇到unicode,unicode是一种宽字节编码,能够很好的融合世界各个国家的字符,具有国际通用性,所谓宽字符其实使用两个字节来表示一个符号. 而utf8是一种多字节编码,一个字符所占用的字节数不确定,是对unicode的精简版本,也用具有世界通用性.Gbk也是一种双字节编码,其实就是对中文简体的一种编码,不具有世界通

Mysql宽字节注入(转)

尽管现在呼吁所有的程序都使用unicode编码,所有的网站都使用utf-8编码,来一个统一的国际规范.但仍然有很多,包括国内及国外(特别是非英语国家)的一些cms,仍然使用着自己国家的一套编码,比如gbk,作为自己默认的编码类型.也有一些cms为了考虑老用户,所以出了gbk和utf-8两个版本. 我们就以gbk字符编码为示范,拉开帷幕.gbk是一种多字符编码,具体定义自行百度.但有一个地方尤其要注意: 通常来说,一个gbk编码汉字,占用2个字节.一个utf-8编码的汉字,占用3个字节.在php中

宽字节(宽字符)注入

字节注入也是在最近的项目中发现的问题,大家都知道%df' 被PHP转义(开启GPC.用addslashes函数,或者icov等),单引号被加上反斜杠\,变成了 %df\',其中\的十六进制是 %5C ,那么现在 %df\' =%df%5c%27,如果程序的默认字符集是GBK等宽字节字符集,则MYSQL用GBK的编码时,会认为 %df%5c 是一个宽字符,也就是縗',也就是说:%df\' = %df%5c%27=縗',有了单引号就好注入了.比如: $conn = mysql_connect("lo

【PHP代码审计】 那些年我们一起挖掘SQL注入 - 5.全局防护Bypass之宽字节注入

0x01 背景 首先我们了解下宽字节注入,宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而导致的注入漏洞.具体原理如下:1.正常情况下当GPC开启或使用addslashes函数过滤GET或POST提交的参数时,黑客使用的单引号 ‘ 就会被转义为: \’:2.但如果存在宽字节注入,我们输入%df%27时首先经过上面提到的单引号转义变成了%df%5c%27(%5c是反斜杠\),之后在数据库查询前由于使用了GBK多

1.5 宽字节注入

[转载]sql宽字节注入详解 尽管现在呼吁所有的程序都使用unicode编码,所有的网站都使用utf-8编码,来一个统一的国际规范.但仍然有很多,包括国内及国外(特别是非英语国家)的一些cms,仍然使用着自己国家的一套编码,比如gbk,作为自己默认的编码类型.也有一些cms为了考虑老用户,所以出了gbk和utf-8两个版本. 我们就以gbk字符编码为示范,拉开帷幕.gbk是一种多字符编码,具体定义自行百度.但有一个地方尤其要注意: 通常来说,一个gbk编码汉字,占用2个字节.一个utf-8编码的