使用C#处理基于比特流的数据

0x00 起因

最近需要处理一些基于比特流的数据，计算机处理数据一般都是以byte（8bit）为单位的，使用BinaryReader读取的数据也是如此，即使读取bool型也是一个byte。不过借助于C#基础类库中提供的一些方法，也实现了对基于比特的数据的读取。任务完成后觉得基于比特的数据挺有意思，自己试了下用7比特和6比特编码常用ASCII字符。最后把一点新的写成博客，一方面做个记录，另一方面希望对有类似需求的园友有所帮助。

0x01 比特流数据的读取

假设我们有一个byte b = 35，而我们需要把其中的前4bit和后4bit分别读取为两个数字，那么应该怎么做呢。虽然没有在基础类库中找到现成的方法，但用二进制字符串中转一下，分两步也可以做到。

1、先把b表示为二进制字符串00100011

2、分别取其前后4bit转为数字，核心方法就是：

Convert.ToInt32("0010");

这样就实现了基于比特的数据读取了。

关于第一步中把byte转化为二进制字符串有很多种方法，

1、最简单的Convert.ToString(b,2)。不够8位就在高位用0补足。

2、也可以把byte分别与1,2,4,8 … 128做与运算，由低到高取出各位。

3、也可以把byte和32做与运算，然后把byte左移再次与128做与运算。

其中第一种方法会产生大量的字符串对象，在第2、3种方法没有找到太大区别，我选择的3，纯靠感觉。代码如下：

public static char[] ByteToBinString(byte b)
{
　　var result = new char[8];
　　for (int i = 0; i < 8; i++)
　　{
　　　　var temp = b & 128;
　　　　result[i] = temp == 0 ? ‘0‘ : ‘1‘;
　　　　b = (byte)(b << 1);
　　}　　return result;
}

为了能将byte[]转化为二进制字符串，可以

Public string BitReader(byte[] data)
{
    BinString = new StringBuilder(data.Length * 8);
    for (int i = 0; i < data.Length;
    {
         BinString.Append(ByteToBinString(data[i]));
    }
    return BinString.ToString();
}

这样一来当拿到byte[]数据时,可以转换为二进制字符串保存起来，根据偏移的bit位置和bit长度从中读取二进制字符串，并保转换为bool，Int16，Int32等。基于这个思路，可以写一个BitReader类，其中用StringBuilder存储二进制字符串，并提供Read方法从二进制字符串中读取数据。为了能够更好的处理数据流，在此基础上添加一个Position记录当前偏移，当使用某些Read方法读取数据时，Position也会相应移动。例如使用ReadInt16读取数据，BitReader会从Position当前位置，读取16bit并转换为Int16返回，同时Position向后移动16bit。区分方式就是当读取数据时需要指定起始的偏移位置时，Position不移动，直接从当前Position读取时Position移动，BitReader类部分代码如下：

 1 public class BitReader
 2 {
 3     public readonly StringBuilder BinString;
 4     public int Position { get; set; }
 5
 6     public BitReader(byte[] data)
 7     {
 8         BinString = new StringBuilder(data.Length * 8);
 9         for (int i = 0; i < data.Length; i++)
10         {
11             BinString.Append(ByteToBinString(data[i]));
12         }
13         Position = 0;
14     }
15
16     public byte ReadByte(int offset)
17     {
18         var bin = BinString.ToString(offset, 8);
19         return Convert.ToByte(bin, 2);
20     }
21
22     public byte ReadByte()
23     {
24         var result = ReadByte(Position);
25         Position += 8;
26         return result;
27     }
28
29     public int ReadInt(int offset, int bitLength)
30     {
31         var bin = BinString.ToString(offset, bitLength);
32         return Convert.ToInt32(bin, 2);
33     }
34
35     public int ReadInt(int bitLength)
36     {
37         var result = ReadInt(Position, bitLength);
38         Position += bitLength;
39         return result;
40     }
41
42     public static char[] ByteToBinString(byte b)
43     {
44         var result = new char[8];
45         for (int i = 0; i < 8; i++)
46         {
47             var temp = b & 128;
48             result[i] = temp == 0 ? ‘0‘ : ‘1‘;
49             b = (byte)(b << 1);
50         }
51         return result;
52      }
53 }

使用BitReader按照4bit从byte[] buff= {35,12};中读取数据可以这样：

var reader = new BitReader(buff); //二进制字符串为0010001100001100

var num1 = reader.ReadInt(4);   //从当前Position读取4bit为int，Position移动4bit，结果为2，当前Position=4

var num2 = reader.ReadInt(5,6);  //从偏移为5bit的位置读取6bit为int，Position不移动，结果为48，当前Position=4

var b = reader.ReadBool();  //从当前Position读取1bit为bool，Position移动1bit，结果为False，当前Position=5

0x02 比特流数据的写入

把数据写入比特流就是一个相反的过程，我们用BitWriter类实现，在其中存储StringBuilder保存二进制字符串，当写入数据时，需要传入数据并指定保存这个数据所需要的bit数。当写入完毕后可以将StringBuilder中保存的二进制字符串按照8bit转换为byte[]并返回。BitWriter的核心部分如下：

 1 public class BitWriter
 2 {
 3     public readonly StringBuilder BinString;
 4
 5     public BitWriter()
 6     {
 7         BinString = new StringBuilder();
 8     }
 9
10     public BitWriter(int bitLength)
11     {
12         var add = 8 - bitLength % 8;
13         BinString = new StringBuilder(bitLength + add);
14     }
15
16     public void WriteByte(byte b, int bitLength=8)
17     {
18         var bin = Convert.ToString(b, 2);
19         AppendBinString(bin, bitLength);
20     }
21
22     public void WriteInt(int i, int bitLength)
23     {
24         var bin = Convert.ToString(i, 2);
25         AppendBinString(bin, bitLength);
26     }
27
28     public void WriteChar7(char c)
29     {
30         var b = Convert.ToByte(c);
31         var bin = Convert.ToString(b, 2);
32         AppendBinString(bin, 7);
33     }
34
35     public byte[] GetBytes()
36     {
37         Check8();
38         var len = BinString.Length / 8;
39         var result = new byte[len];
40
41         for (int i = 0; i < len; i++)
42         {
43             var bits = BinString.ToString(i * 8, 8);
44             result[i] = Convert.ToByte(bits, 2);
45         }
46
47         return result;
48     }
49
50     public string GetBinString()
51     {
52         Check8();
53         return BinString.ToString();
54     }
55
56
57     private void AppendBinString(string bin, int bitLength)
58     {
59         if (bin.Length > bitLength)
60             throw new Exception("len is too short");
61         var add = bitLength - bin.Length;
62         for (int i = 0; i < add; i++)
63         {
64             BinString.Append(‘0‘);
65         }
66         BinString.Append(bin);
67     }
68
69     private void Check8()
70     {
71         var add = 8 - BinString.Length % 8;
72         for (int i = 0; i < add; i++)
73         {
74             BinString.Append("0");
75         }
76     }
77 }

下面举个简单的例子：

var writer = new BitWriter();

writer.Write(12,5);  //把12用5bit写入，此时二进制字符串为：01100

writer.Write(8,16);  //把8用16bit写入，此时二进制字符串为：011000000000000001000

var result = writer.GetBytes(); //8bit对齐为011000000000000001000000
                                //返回结果为[96,0,64]

0x03 7比特字符编码

我们常用的ASCII字符是使用8bit编码的，但其中真正常用的那些字符只有7bit，最高位为0，所以对于一篇英文文章，我们可以使用7bit重新编码而不损失信息。编码的过程就是把文章字符依次取出，并用BitWriter按照7bit写入，最后获取新编码的byte[]。为了能够正确读取，我们规定当读到8bit数据为2时代表数据开始，接下来16bit数据为后面字符个数。代码如下：

    public byte[] Encode(string text)
    {
        var len = text.Length * 7 + 24;

        var writer = new BitWriter(len);
        writer.WriteByte(2);
        writer.WriteInt(text.Length, 16);

        for (int i = 0; i < text.Length; i++)
        {
            var b = Convert.ToByte(text[i]);
            writer.WriteByte(b, 7);
        }

        return writer.GetBytes();
    }

同样读取数据的时候，我们先寻找开始标识符，然后读出字符个数，根据字符个数依次读取字符，代码如下：

    public string Decode(byte[] data)
    {
        var reader = new BitReader(data);
        while (reader.Remain > 8)
        {
            var start = reader.ReadByte();
            if (start == 2)
                break;
        }
        var len = reader.ReadInt(16);
        var result = new StringBuilder(len);
        for (int i = 0; i < len; i++)
        {
            var b = reader.ReadInt(7);
            var ch = Convert.ToChar(b);
            result.Append(ch);
        }

        return result.ToString();
    }

由于数据头的存在，当编码几个字符时编码后数据反而更长了

不过随着字符越多，编码后节省的越多。

0x04 6比特字符编码

从节省数据量的角度，如果允许损失部分信息，例如损失掉字母大小写，是可以进一步减少编码所需比特数的。26个字母+10个数字+符号，可以用6bit（64）进行编码。不过使用这种编码方式就不能用ASCII的映射方式了，我们可以自定义映射，例如0-10映射为十个数字等等，也可以使用自定义的字典，也就是传说中的密码本。经常看国产谍战片的应该都知道密码本吧，密码本就是一个字典，把字符进行重新映射获取明文，算是简单的单码替代，加密强度很小，在获取足量数据样本后基于统计很容易就能破解。下面我们就尝试基于自定义字典用6bit重新编码。

编码过程：

仍然像7bit编码那样写入消息头，然后依次取出文本中的字符，从字典中找到对应的数字，把数字按照6bit长度写入到BitWriter

    public byte[] Encode(string text)
    {
        text = text.ToUpper();
        var len = text.Length * 6 + 24;

        var writer = new BitWriter(len);
        writer.WriteByte(2);
        writer.WriteInt(text.Length, 16);

        for (int i = 0; i < text.Length; i++)
        {
            var index = GetChar6Index(text[i]);
            writer.WriteInt(index, 6);
        }

        return writer.GetBytes();

    }

    private int GetChar6Index(char c)
    {
        for (int i = 0; i < 64; i++)
        {
            if (Dict.Custom[i] == c)
                return i;
        }
        return 10; //return *
    }

解码过程：

解码也很简单，找到消息头，依次按照6bit读取数据，并从字典中找到对应的字符：

public string Decode(byte[] data)
{
    var reader = new BitReader(data);
    while(reader.Remain > 8)
    {
        var start = reader.ReadByte();
        if (start == 2)
            break;
    }
    var len = reader.ReadInt(16);
    var result = new StringBuilder(len);
    for (int i = 0; i < len; i++)
    {
        var index = reader.ReadInt(6);
        var ch = Dict.Custom[index];
        result.Append(ch);
    }

    return result.ToString();
}

同样一段文本用6bit自定义字典编码后数据长度更短了，不过损失了大小写和换行等格式。

如果从加密的角度考虑，可以设置N个自定义字典（假设10个），在消息头中用M bit（例如4bit）表示所用的字典。这样在每次编码时随机选择一个字典编码，解码时根据4bit数据选择相应字典解码，并且定时更换字典可以增大破解难度。感兴趣的园友可以自行尝试。

0x05 写在最后

以上是我处理比特流数据的一点心得，仅仅是我自己能想到的一种方法，满足了我的需求。如果有更效率的更合理的方法，希望赐教。另外编码和解码的两个例子是出于有趣写着玩的，在实际中估计也用不到。毕竟现在带宽这么富裕，数据加密也有N种可靠的多的方式。

示例代码：https://github.com/durow/TestArea/tree/master/BitStream

时间： 2024-08-11 03:30:06

使用C#处理基于比特流的数据

使用C#处理基于比特流的数据

0x00 起因

0x01 比特流数据的读取

0x02 比特流数据的写入

0x03 7比特字符编码

0x04 6比特字符编码

0x05 写在最后

使用C#处理基于比特流的数据的相关文章

流式数据中的数学统计量计算

大数据实时处理-基于Spark的大数据实时处理及应用技术培训

互不相同正整数的压缩算法:分页式多比特流

基于POI导出Excel数据

构建基于LBS的大数据应用

ASP.NET Core MVC中Controller的Action如何直接使用Response.Body的Stream流输出数据

sersync基于rsync+inotify实现数据实时同步

使用对象流将数据以对象形式进行读写

基于server broker 的数据实时更新