C# Encoding.Unicode.GetBytes / Encoding.Unicode.GetString 函数假想研究

我们很多人都知道Encoding.Unicode这个东东，它是用于获取字符串的Unicode字节流包括把Unicode字节流转换成.NET上的一个通用字符串String，但是有很多人却不知道它内部是如何实现的，当年我是通过MultiByteToWideChar

与WideCharToMultiByte实现的，但是我并不知道内部的实现方式。

首先我们需要理解Unicode字符串在内存中是怎么存储的，Unicode规定一个字符占用两个字节与wchar_t的长度一致

我为什要提这个是因为若你不知道有有多长你很难编写代码下去除非你Ctrl + C && Ctrl + V

在内存中一个字符串假设为 “中” 它的对应short int value为20013那么在内存中它会是这样存储

low: 0010 1101

high: 0100 1110

√

low: 1011 0100

high: 0111 0010

左边为低位，右边为高位。高位是低位的一次幂，一个byte拥有8/bit二进制

形式：1111 1111 如果计算为十进制介质范围在0~255及256次

那么我们可以通过上述内容可以得到公式: (low
* 256 ^ 0) + (high * 256 ^ 1)

示例代码：

        private void Form1_Load(object sender, EventArgs e)
        {
            byte[] bfx = GetUniocdeBytes("中国");
            byte[] bfy = Encoding.Unicode.GetBytes("中国");
            string str = GetUnicodeString(bfx);
        }

        private byte[] GetUniocdeBytes(string str)
        {
            int size = 0;
            if(str != null && (size = str.Length) > 0)
            {
                byte[] buffer = new byte[size * 2];
                for (int i = 0; i < size; i++)
                {
                    char chr = str[i];
                    buffer[i * 2] = (byte)(chr & 0xff);
                    buffer[i * 2 + 1] = (byte)(chr >> 8);
                }
                return buffer;
            }
            return new byte[size];
        }

        private string GetUnicodeString(byte[] buffer)
        {
            int size = 0;
            if (buffer != null && (size = buffer.Length) >= 2)
            {
                size -= size % 2; // sizeof(wchar_t)
                char[] value = new char[size / 2];
                for (int i = 0; i < size; i += 2)
                    value[i / 2] = (char)((buffer[i + 1] << 8) + buffer[i]);
                return new string(value);
            }
            return string.Empty;
        }

时间： 2024-11-28 19:56:29

C# Encoding.Unicode.GetBytes / Encoding.Unicode.GetString 函数假想研究的相关文章

Encoding encoding = Encoding.GetEncoding("gb2312"); 与byte[] ping = Encoding.UTF8.GetBytes(inputString);区别

Encoding encoding = Encoding.GetEncoding("gb2312"); 与byte[] ping = Encoding.UTF8.GetBytes(inputString);区别 public static string SubString(string inputString, int length) { byte[] ping = Encoding.UTF8.GetBytes(inputString);

中文转换成Unicode编码和 Unicode编码转换为中文

前几天,遇到一个问题,就是在浏览器地址栏传递中文时,出现乱码,考虑了一下,解决方式有很多,我还是采用了转换编码的方式,将中文转换为Unicode编码,然后再解码成中文,以下是实现的过程,非常简单! package cy.code; public class CyEncoder { private String zhStr; //中文字符串 private String unicode;//将中文字符串转换为Unicode编码存储在这个属性上. public CyEncoder(String z

CString和string在unicode与非unicode下的相互转换（转）

原文转自 http://blog.csdn.net/u014303844/article/details/51397556 CString和string在unicode与非unicode下的相互转换最近想写一个手机控制电脑的玩具,涉及到了socket通信,数据采用json通用格式,首先是jsoncpp的编译问题太烦了,然后还有更烦的,java中的String多容易的玩意儿,然后到了c/c++/mfc中超级烦,搜索了很久的攻略,用了大把的时间,最后写了个这玩意儿出来,或许可以帮助到一些需要此的道

【Teradata】Latin和Unicode字符集转换（自定义函数udf_w936to16和udf16tow936）

1.安装UDF函数 (1)下载GBK2Unicode.zip,地址为https://downloads.teradata.com/tag/udf (2)windows或者Linux环境下使用bteq进行安装. 进入文件所在目录,输入如下命令(windows中使用dos) bteq .logon 192.168.253.222/citic_edw 输入口令后,输入如下命令 database syslib; .run file=16_936.sql 验证syslib库中是否存在udf_w936to1

unicode,ansi,utf-8,unicode big endian编码的区别

作者:于洋链接:https://www.zhihu.com/question/23374078/answer/69732605来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这

非Unicode工程读取Unicode文件

MyUnicodeReader.h #pragma once /************************************************************************/ /* 在“多字节字符集”属性的工程中读取Unicode文件 ** -----------------------------------注意------------------------------------------------------- ** -------------一定

VC中含中英文的\u格式UNICODE字符串转UNICODE可见字符串

JAVA使用UTF-8格式字符串,JAVA与C++通信时将UTF-8串转为UNICODE串,如“ABCDabcd中国人民下沙123.杭州”转为UNICODE后外观如下: \u41\u42\u43\u44\u61\u62\u63\u64\u4e2d\u56fd\u4eba\u6c11\u4e0b\u6c99\u31\u32\u33\u2e\u676d\u5dde VC中如下处理即可转回来 CString CXXClass::UnicodeToString() { CString strUnicod

java 中文转换成Unicode编码和Unicode编码转换成中文

转自:一叶飘舟 http://blog.csdn.net/jdsjlzx/article/details/7058823 package lia.meetlucene; import java.io.IOException; import org.apache.lucene.index.CorruptIndexException; public class Unicode { public static void main(String[] args) throws CorruptIndexEx

VC++ 工程添加 Unicode Debug和Unicode Release编译支持

转载:http://blog.csdn.net/djhdu/article/details/171766 转载:http://blog.163.com/long_lh/blog/static/27693480200799112658267/ 转载:http://blog.sina.com.cn/s/blog_8a7012cf0101dy7w.html 一.添加UnicodeRelease的操作步骤: UnicodeRelease