【win32】day02-字符与编码

字符编码

2.1 编码的历史

2.1.1 ASCII 0-127 7位表示

2.1.2 ASCII扩展码 0-255 8位表示

代码页:通过代码页来切换对应的字符

2.1.3 双字节字符集 DBCS

使用一个或两个字节表示字符.

"A中B国"

12 1 2

A: 0x41 中:0x8051

B: 0x42 国:0x8253

1 2 3 4 5 6

0x41 0x80 0x51 0x42 0x82 0x53

A 中 B 国

2.1.4 Unicode

全部使用2个字节表示字符

"A 中 B国"

2 2 2 2

A: 0x0041 中:0x8051

B: 0x0042 国:0x8253

------------内存当中，小字节在前，高字节在后------------

1 2 3 4 5 6 7 8

41 00 51 80 42 00 53 82

带来的问题：？？

内存/硬盘等资源占用变大.

对编程支持度.c语言输出字符串，遇到\0结束。

C语言和编码

2.2.1 单字节的字符和字符串

char cText = ‘A‘;

char * pszText = "ABCD";

2.2.2 宽字节的字符

wchar_t cText = ‘A‘

wchar_t * pszText = L"ABCD";

2.2.3 相关函数

单字字符的函数,对应有多.宽字节的函数.

strlen wcslen mbslen

printf wprintf

2.2.4 TCHAR

为了程序中可以方便的支持的Unicode和多字节字符等,所以使用TCHAR来定义字符和字符串.

根据_UNICODE宏开关,会将TCHAR编译成不同字符类型.

#ifndef _UNICODE

typedef char TCHAR

#define __T(x) x

#else

typedef wchar_t TCHAR

#define __T(x) L##x

#endif

使用时,要增加TCHAR.H头文件支持,使用_UNICODE宏开关进行编译

CL window.c /D_UNICODE

或者在程序中

#define _UNICODE

#include "tchar.h"

定义方式:

TCAHR * pszText = __T("ABCDEF");

代码使用：使用UNICODE宏开关，通知编译器选择编译的代码．

#ifndef _UNICODE

int nLen = strlen( pszText );

#else

int nLen = wcslen( pszText );

#endif

　　２.2.5 Unicode的控制台打印

BOOL WriteConsole(

HANDLE hConsoleOutput, //控制台输出流的句柄

CONST VOID *lpBuffer,//输出的字符串的指针

DWORD nNumberOfCharsToWrite,//输出的字符串的长度

LPDWORD lpNumberOfCharsWritten,

// 返回已输出字符的数量

LPVOID lpReserved ); // 保留值

打印256个字符，ascII码

一个字符一个字符的显示，
第7个字符会听到b的一声。0-127是ascii字符，128-255是一堆问号。

因：128以上为中文的代码页，而中文需要2个字符表示。

设置code-page代码页；

需要加一个L，双字节字符串定义。

Wchar_t *pszText = L”ABCD”;

Wprintf, 双字节字符的打印函数

宽字节字符串，

多字节字符串

Wchar_t *pwszChs = L”我是程序员”;//unicode码 len=5

Char *pszChs = “我是程序员”;//len = 10

Unicode码是宽字节字符中的一种。

// char.cpp : Defines the entry point for the console application.
//
#include "stdafx.h"
#include "stdlib.h"
#include "string.h"

#define _UNICODE

#include "tchar.h"
#include <windows.h>
// #ifndef _UNICODE
// 	typedef char TCHAR
// 	#define __T(x)	x
// #else
// 	typedef wchar_t TCHAR
// 	#define __T(x)  L##x
// #endif
// UNICODE
//  wchar_t * pszText = L"我是程序员";
// MUTIBYTE
//  char * pszText = "我是程序员";
void tchar( )
{
	TCHAR * pszText = __T("我是程序员") ;
}

void C_wchar( )
{
	wchar_t cText = 'A';
	wchar_t * pszText = L"ABCD";
	int nLen = wcslen( pszText );
	printf( "%d %s\n", nLen, pszText );
	wprintf( L"%s\n", pszText );

	wchar_t * pwszChs = L"我是程序员";
	nLen = wcslen( pwszChs );
	wprintf( L"W: %d %s\n", nLen, pwszChs );//printf打印不出来unicode码中文字符

	char * pszChs = "我是程序员";
	nLen = strlen( pszChs );
	printf( "M %d %s\n", nLen, pszChs );
}

void CoadPage( int nCodePage )
{
	SetConsoleOutputCP( nCodePage );
	char cText = 0;
	for( int nIndex=0; nIndex<256; nIndex++ )
	{
		printf( "%c ", cText );
		cText++;
	}
}

void ASCII( )
{
	char cText = 0;
	for( int nIndex=0; nIndex<256; nIndex++ )
	{
		printf( "%c ", cText );
		cText++;
	}
}

void c_char( )
{
	char * pszText = "Hello World!\n";
	int nLen = strlen( pszText );
	printf( "%d, %s", nLen, pszText );
}

int main(int argc, char* argv[])
{
	//c_char( );
	//ASCII( );
	//printf( "\n-------------------\n" );
	//CoadPage( 437 );
	//CoadPage( 936 );
	C_wchar();
	return 0;
}

#include "stdafx.h"
#include "stdlib.h"
#include "string.h"

#define _UNICODE

#include "tchar.h"
#include <windows.h>

void PrintUnicode( )
{
	HANDLE hOut =
		GetStdHandle( STD_OUTPUT_HANDLE );
	wchar_t * pszText = L"我是程序员";
	WriteConsoleW( hOut,pszText,
		wcslen(pszText), NULL, NULL );

	wchar_t szText[2] = { 0 };
	for( BYTE nHigh=0x48; nHigh<0x9F; nHigh++ )
	{
		for( BYTE nLow=0; nLow<0xFF; nLow++ )
		{
			szText[0] = MAKEWORD( nLow, nHigh );
			WriteConsoleW( hOut,szText,
				wcslen(szText), NULL, NULL );
		}
	}
}

int main(int argc, char* argv[])
{
	PrintUnicode( );
	return 0;
}

Win32程序与编码

2.3.1 Win32 API的定义

　每个API对多字节字符和UNICODE分别有不同的版本．

MessageBox

MessageBoxA 多字节字符

MessageBoxW UNICODE字符

2.3.2 字符的定义，使用TEXT,由Winnt.h提供定义

#ifdef UNICODE

#define __TEXT(quote) L##quote

#else /* UNICODE */

#define __TEXT(quote) quote

#endif /* UNICODE */

TCHAR * pszText = TEXT( "ABCD" );

2.3.3 字符转换

int WideCharToMultiByte(

UINT CodePage, //代码页

DWORD dwFlags, //转换方式

LPCWSTR lpWideCharStr, //需要被转换WCHAR地址

int cchWideChar, //需要被转换WCHAR的长度

LPSTR lpMultiByteStr,//用于存放转换后的结果BUFF

int cchMultiByte, //BUFF的长度

LPCSTR lpDefaultChar,//使用的缺省字符串的地址

LPBOOL lpUsedDefaultChar //缺省字符串被使用的标识

);

int MultiByteToWideChar(

UINT CodePage,// 代码页

DWORD dwFlags,// 转换方式

LPCSTR lpMultiByteStr, // 需要被转换CHAR地址

int cchMultiByte,//需要被转换CHAR的长度

LPWSTR lpWideCharStr,//用于存放转换后的结果BUFF

int cchWideChar );//BUFF的长度

使用方法：

1 将要转换的字符串，传递给函数，从返回值中获取转换后字符串的长度。

2 分配字符串空间

3 再次调用函数，并将分配的空间传递给函数，获取结果.

// WinChar.cpp : Defines the entry point for the application.
//
#include "stdafx.h"
#include "stdlib.h"

/*
int WINAPI MessageBoxA(
    HWND hWnd ,
    LPCSTR lpText,
    LPCSTR lpCaption,
    UINT uType);

int WINAPI MessageBoxW(
    HWND hWnd ,
    LPCWSTR lpText,
    LPCWSTR lpCaption,
    UINT uType);

#ifdef UNICODE
#define MessageBox  MessageBoxW
#else
#define MessageBox  MessageBoxA
#endif // !UNICODE
*/
void MyMessageBox( )
{
	MessageBox( NULL, TEXT("Hello Wide"),
		TEXT("Wide"), MB_OK );
}

void Wide2Multi( )
{
	WCHAR * pwszText = L"Wide2Multi";
	//计算转换后的字符串长度
	int nLen = WideCharToMultiByte(
		CP_ACP, 0, pwszText, wcslen(pwszText),
		  NULL, 0, NULL, NULL );
	//分配内存
	char * pszText = (char *)malloc( nLen );
	//获取结果
	WideCharToMultiByte(
		CP_ACP, 0, pwszText, wcslen(pwszText),
		pszText, nLen, NULL, NULL );
	//
	MessageBoxA( NULL, pszText, "Multi", MB_OK );
	free( pszText );
}

void Multi2Wide( )
{
	CHAR * pszText = "Multi2Wide";
	//获取转换后需要的BUFF的长度
	int nLen = MultiByteToWideChar( CP_ACP,
		0, pszText, strlen(pszText),
		NULL, 0 );
	//分配BUFF的空间
	WCHAR * pwszText =
		(WCHAR *)malloc( nLen * sizeof(WCHAR) );
	//进行转换
	MultiByteToWideChar( CP_ACP,
		0, pszText, strlen(pszText),
		pwszText, nLen );

	MessageBoxW( NULL,pwszText,
		L"Wide", MB_OK );
	free( pwszText );
}

int APIENTRY WinMain(HINSTANCE hInstance,
                     HINSTANCE hPrevInstance,
                     LPSTR     lpCmdLine,
                     int       nCmdShow)
{
 	//Multi2Wide( );
	Wide2Multi( );
	return 0;
}

时间： 2024-10-06 18:08:03

【win32】day02-字符与编码的相关文章

[转]各种字符集和编码详解

在软件的编码和实现中,我们可能会碰到个一个比较头疼的问题--编码,不同字符间的编码和解码,你确定了解各种字符的编码吗?一个朋友问到了我这个问题,我虽然能回答一两个出来,但是感觉已经有点模糊,混乱了,在网上搜了搜,在书上翻了翻,总结一下吧.首先按照字符编码的历程来看: 1. ASCII 我们需要了解的最早编码是ASCII码.它用7个二进制位来表示,由于那个时期生产的大多数计算机使用8位大小的字节,因此用户不仅可以存放所有可能的ASCII字符,而且有整整一位空余下来.如果你技艺高超,可以将该位用

ZUFE 1035 字符宽度编码

Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 117 Solved: 16[Submit][Status][Web Board] Description 你的任务是编写一个程序实现简单的字符宽度编码方法.规则如下:将任何2~9个相同字符的序列编码成2个字符:第1个字符是序列的长度,用数字字符2~9表示,第2个字符为这一串相同字符序列中的字符.超过9个相同字符构成的序列编码方法是先编码前面9个字符,然后再编码剩余的字符.将任何不包括连续相同字符的序

使用 URLDecoder 和 URLEncoder 对中文字符进行编码和解码

摘要: URLDecoder 和 URLEncoder 用于完成普通字符串和 application/x-www-form-urlencoded MIME 字符串之间的相互转换.在本文中,我们以使用URLDecoder解决GET请求中文乱码问题为场景说明 URLDecoder/URLEncoder 的用法,并给出了 application/x-www-form-urlencoded MIME 字符串的编码规则. 一. URLDecoder/URLEncoder 使用场景概述 URLDecode

WEB开发中的字符集和编码

html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,big,cite,code,del,dfn,em,img,ins,kbd,q,s,samp,small,strike,strong,sub,sup,tt,var,b,u,i,center,dl,dt,dd,ol,ul,li,fieldset,form,label,legend,table,caption

你不知道的字符集和编码（编码字符集与字符集编码）

我的上篇文章,有朋友提出字符集和编码的区别,我在此立文和大家讨论下常说的字符集和编码区别,其实就是编码字符集和字符集编码的区别,其实,单单如果只是说字符集,没有任何编码的概念的话,那么字符集其实仅仅是一个简单的字符的集合,或者说是一个抽象的字符的集合,包括文字,符号等等,不参与任何存储形式,只是存在这么各种各样标准的字符的集合如果仅仅是抽象的字符集,我们是无需拿出讨论的,因为没有任何异议,通俗易懂,而常说的字符集指的编码字符集,比如常见的 unicode.ascii.gb2312.gbk等,

字符的编码与解码

在浏览网页,编写程序时,偶尔会碰到一些乱码问题.例如在打开一个网页时,没有一个正常字符可辨识的,全是一些奇怪的符号,方块.问号等等.通过浏览器的tools->encoding选择UTF-8或者GBK,显示就正常了.为什么会乱码,UTF-8和GBK又是什么东西呢? 汉子,字母等字符,我们可以识别,并理解它们的表达信息.但计算机不能直接识别这些字符,它只能理解二进制信息.为了让计算机能够处理,表示字符,我们需要将字符转换成二进制表达,交给计算机处理.再将计算机处理输出的二进制信息转换成字符.所以这里

各种字符集和编码详解

字符字节编码

转载:http://www.regexlab.com/zh/encoding.htm 级别:中级摘要:本文介绍了字符与编码的发展过程,相关概念的正确理解.举例说明了一些实际应用中,编码的实现方法.然后,本文讲述了通常对字符与编码的几种误解,由于这些误解而导致乱码产生的原因,以及消除乱码的办法.本文的内容涵盖了“中文问题”,“乱码问题”. 掌握编码问题的关键是正确地理解相关概念,编码所涉及的技术其实是很简单的.因此,阅读本文时需要慢读多想,多思考. 引言 “字符与编码”是一个被经常讨论的话题.即

Python 之字符转编码操作

字符转编码操作 # -*- coding:utf-8 -*- import sys print(sys.getdefaultencoding()) s = "你好" python2写法,将s转换成"gbk" s_to_gbk = s.decode("utf-8").encode("gbk") #1.在Python2下,所有字符编码为"ascii"#2.当文件头声明定义为:utf-8#3.将s转换gbk,首先

浏览器url地址殊字符转义编码

网址URL中特殊字符转义编码字符 - URL编码值空格 - %20" - %22# - %23% - %25& - %26( - %28) - %29+ - %2B, - %2C/ - %2F: - %3A; -