cut-trailing-bytes:二进制尾部去0小工具

背景

之前的文章 二进制文件处理之尾部补0和尾部去0 中介绍了一种使用 sed 去除二进制文件尾部的 NULL(十六进制0x00)字节的方法。

最近发现这种方法有局限性,无法处理较大的文件。因为 sed 本身是行处理,几百M的二进制文件对 sed 而言就是一个几百M的行,这超出了 sed 的最大限制。

具体的限制条件没有去探究,好像有的版本是硬编码了一个上限,有的版本是取决于可申请的内存。

总之,sed 搞不定了,必须另寻他法。

其实我一直相信有现成的工具可以做到,但在有限的时间内没能找到,就只有自己先写一个应应急了。如有人知道简单的办法,可以指教下。

如果只是需要工具,后文就可以略过了,源码在此:https://github.com/zqb-all/cut-trailing-bytes

思路

这个想想倒也简单,就是找到文件最后一个非 0x00 的字节,并把文件从此处截断。

看起来从后往前找效率会高点。但从前往后找简单些,先从最简单的实现开始吧。

实现过程

c 写也很简单,但春节期间看了点 rust 的语法,忍不住想试试。

到 rust 文档中搜了下,https://doc.rust-lang.org/std/io/trait.Read.html#method.bytes 给了一个例子

use std::io;
use std::io::prelude::*;
use std::fs::File;

fn main() -> io::Result<()> {
    let mut f = File::open("foo.txt")?;

    for byte in f.bytes() {
        println!("{}", byte.unwrap());
    }
    Ok(())
}

另外找到有个 set_len 直接可以截断文件。

于是第一个版本,照猫画虎很快就出来了。

use std::io;
use std::io::prelude::*;
use std::fs::File;
use std::fs::OpenOptions;

fn main() -> io::Result<()> {
    let mut f = File::open("foo.txt")?;
    let mut total_len = 0;
    let mut tmp_len = 0;
    for byte in f.bytes() {
        match byte.unwrap() {
            0 => { tmp_len += 1; }
            _ => {
                total_len += tmp_len;
                tmp_len = 0;
                total_len += 1;
                }
        }
    }
    println!("total_len:{},tmp_len:{}", total_len, tmp_len);
    let mut f = OpenOptions::new().write(true).open("foo.txt");
    f.unwrap().set_len(total_len)?;
    Ok(())
}

弄了个小文件测试下没问题,那么上大文件试试。

一步到位造个 500M 的文件,结果发现运行之后就卡住,看来这个 f.bytes() ,就跟控制台执行 dd 时指定 bs=1 一样,都是超低效率了。

本来想等等看到底需要多久的,但洗完一个澡回来发现还卡着,就放弃了,直接开始改吧。

改成先读到 buffer 中,再对 buffer 进行逐 byte 判断。

    ...
    let mut buffer = [0; 4096];
    loop {
           let n = f.read(&mut buffer[..])?;
           if n == 0 { break; }
           for byte in buffer.bytes() {
               match byte.unwrap() {
    ...

效率一下变高了,500M 的文件在我 win10 WSL 中几秒钟就可以跑完。

再改改,把硬编码的 foo.txt 换成从参数中获取文件名,并在 buffer 的处理循环中补上对 n 做递减,递减到 0break,以正确处理最后一笔数据填不满 buffer 的边界情况。

use std::io;
use std::io::prelude::*;
use std::fs::File;
use std::fs::OpenOptions;
use std::env;

fn main() -> io::Result<()> {
    let args: Vec<String> = env::args().collect();
    let filename = &args[1];
    let mut f = File::open(filename)?;
    let mut total_len = 0;
    let mut tmp_len = 0;
    let mut buffer = [0; 4096];
    loop {
        let mut n = f.read(&mut buffer[..])?;
        if n == 0 { break; }
        for byte in buffer.bytes() {
            match byte.unwrap() {
                0 => { tmp_len += 1; }
                _ => {
                    total_len += tmp_len;
                    tmp_len = 0;
                    total_len += 1;
                }
            }
            n -= 1;
            if n == 0 { break; }
        }
    }
    println!("len:{}", total_len);
    let f = OpenOptions::new().write(true).open(filename);
    f.unwrap().set_len(total_len)?;
    println!("done");

    Ok(())
}

最终版本

上一章的版本其实对我来说暂时够用了,进一步的优化就懒得做了。

周末又完善了一下。改用了 structopt 来处理参数,并支持通过参数指定要裁剪的值。也就是不仅可以用来去除末尾的0x00,也可以指定其他值,例如0xFF

源码不贴了,有需要 github 自取:https://github.com/zqb-all/cut-trailing-bytes

有了参数处理,help 看起来就要舒服多了。

$ cut-trailing-bytes --help
cut-trailing-bytes 0.1.0
A tool for cut trailing bytes, default cut trailing NULL bytes(0x00 in hex)

USAGE:
    cut-trailing-bytes [FLAGS] [OPTIONS] <file>

FLAGS:
    -d, --dry-run    Check the file but don‘t real cut it
    -h, --help       Prints help information
    -V, --version    Prints version information

OPTIONS:
    -c, --cut-byte <byte-in-hex>    For example, pass ‘ff‘ if want to cut 0xff [default: 0]

ARGS:
    <file>    File to cut

看下效果

$ echo "hello" > hello_00

$ dd if=/dev/zero bs=1k count=1 >> hello_00
1+0 records in
1+0 records out
1024 bytes (1.0 kB, 1.0 KiB) copied, 0.0031857 s, 321 kB/s

$ hexdump -C hello_00
00000000  68 65 6c 6c 6f 0a 00 00  00 00 00 00 00 00 00 00  |hello...........|
00000010  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
00000406

$ du -b hello_00
1030    hello_00

$ ./cut-trailing-bytes hello_00
cut hello_00 from 1030 to 6

$ hexdump -C hello_00
00000000  68 65 6c 6c 6f 0a                                 |hello.|
00000006

$ du -b hello_00
6       hello_00

$ echo "hello" > hello_ff

$ dd if=/dev/zero bs=1k count=1 | tr ‘\000‘ ‘\377‘ >> hello_ff
1+0 records in
1+0 records out
1024 bytes (1.0 kB, 1.0 KiB) copied, 0.0070723 s, 145 kB/s

$ hexdump -C hello_ff
00000000  68 65 6c 6c 6f 0a ff ff  ff ff ff ff ff ff ff ff  |hello...........|
00000010  ff ff ff ff ff ff ff ff  ff ff ff ff ff ff ff ff  |................|
*
00000406

$ du -b hello_ff
1030    hello_ff

$ ./cut-trailing-bytes hello_ff -c ff
cut hello_ff from 1030 to 6

$ hexdump -C hello_ff
00000000  68 65 6c 6c 6f 0a                                 |hello.|
00000006

[email protected]:~/workspace/rust/cut-trailing-bytes
$ du -b hello_ff
6       hello_ff

题外话

rust 编译出来的可执行文件还是挺大的,后来发现改用 nightly 版本会小很多, 再做一次 strip 就更小了。

最终是上面贴出源码的版本,strip 后的 release 版本是 200+ k, 而 github 上完善了参数处理等的版本则要 700+ k

公众号:https://sourl.cn/qVmBKh

Blog: https://www.cnblogs.com/zqb-all/p/12641329.html

原文地址:https://www.cnblogs.com/zqb-all/p/12641329.html

时间: 2024-08-01 20:05:53

cut-trailing-bytes:二进制尾部去0小工具的相关文章

几个常用文本处理小工具tr ,wc,cut,sort,uniq用法详解

几个文本处理的小工具:tr ,wc,cut,sort,uniq 1. tr命令可以对来自标准输入的字符进行替换.压缩和删除.它可以将一组字符变成另一组字符,经常用来编写优美的单行命令,作用很强大. 语法:tr 选项  SET1 SET2 -c或--complerment:取代所有不属于第一字符集的字符(就是补集): -d或--delete:删除所有属于第一字符集的字符: -s或--squeeze-repeats:把连续重复的字符以单独一个字符表示: -t或--truncate-set1:先删除第

有一片1000*1000的草地,小易初始站在(1,1)(最左上角的位置)。小易在每一秒会横向或者纵向移动到相邻的草地上吃草(小易不会走出边界)。大反派超超想去捕捉可爱的小易,他手里有n个陷阱。第i个陷阱被安置在横坐标为xi ,纵坐标为yi 的位置上,小易一旦走入一个陷阱,将会被超超捕捉。你为了去解救小易,需要知道小易最少多少秒可能会走入一个陷阱,从而提前解救小易。 输入描述: 第一行为一个整数n

有一片1000*1000的草地,小易初始站在(1,1)(最左上角的位置).小易在每一秒会横向或者纵向移动到相邻的草地上吃草(小易不会走出边界).大反派超超想去捕捉可爱的小易,他手里有n个陷阱.第i个陷阱被安置在横坐标为xi ,纵坐标为yi 的位置上,小易一旦走入一个陷阱,将会被超超捕捉.你为了去解救小易,需要知道小易最少多少秒可能会走入一个陷阱,从而提前解救小易. 输入描述: 第一行为一个整数n(n ≤ 1000),表示超超一共拥有n个陷阱. 第二行有n个整数xi,表示第i个陷阱的横坐标 第三行

(笔试题)N!尾部连续0的个数

题目: 对任意输入的正整数N,编写C程序求N!的尾部连续0的个数,并指出计算复杂度.如:18!=6402373705728000,尾部连续0的个数是3. (不用考虑数值超出计算机整数界限的问题) 思路: 1.直接计算N!的值,然后统计尾部0的个数,时间复杂度O(n): 2.发散思维,想想尾部为0的数是怎么得到的? 很容易想到2*5即可得到0,则N!可以表示为k*(2^m)*(5^n),由于在N!中m>>n,因此N!=k'*(2*5)^n,即n为尾部为0的个数. 由此,我们只要考虑N!中包含多少

N阶乘尾部的0个数

N阶乘尾部的0个数 描述 设计一个算法,计算出n阶乘中尾部零的个数 思路: 1.1 * 2 * 3 * ... * n --> 1 * 2 * 3 * (2 * 2) * 5 * (2 * 3) * 7 (2 2 * 2) * (3 * 3) (2 5) * ...化成质数相乘,只有2 * 5才可能得到结果有尾数中有0 2.因为2的个数是比5多的,求0的个数问题就转化成了求5的个数的问题 3.5 * 5 * 5 * 5 * 5 * ... * 5有n个5 ; 得到有n个5:有几个 4.- ; -

【开源一个小工具】一键将网页内容推送到Kindle

最近工作上稍微闲点,这一周利用下班时间写了一个小工具,其实功能挺简单但也小折腾了会. 工具名称:Simple Send to Kindle Github地址:https://github.com/zhanjindong/SimpleSendToKindle 功能:Windows下一个简单的将网页内容推送到Kindle的工具. 写这个工具的是满足自己的需求.自从买了Kindle paperwhite 2,它就成了我使用率最高的一个电子设备.相信很多Kindle拥有者和我一样都有这样一个需求:就是白

[apue] 一个查看当前终端标志位设置的小工具

话不多说,先看运行效果: >./term input flag 0x00000500 BRKINT not in ICRNL IGNBRK not in IGNCR not in IGNPAR not in IMAXBEL not in INLCR not in INPCK not in ISTRIP not in IUCLC not in IXANY not in IXOFF not in IXON PARMRK not in output flag 0x00000005 BSDLY not

shell编程之文本小工具

一.文本处理工具1.grep工具2.cut工具3.sort工具4.uniq工具5.tee工具6.diff工具7.paste工具二.bash的特性1.命令和文件自动补全2 .常用的通配符3.bash中的引号 一.文本处理工具 1. grep工具 grep是==行==过滤工具:用于根据关键字进行行过滤 语法和选项 语法: # grep [选项] '关键字' 文件名 常见选项: OPTIONS: -i: 不区分大小写 -v: 查找不包含指定内容的行,反向选择 -w: 按单词搜索 -o: 打印匹配关键字

手把手教你做音乐播放器(八)桌面小工具(上)

第8节 桌面小工具 桌面小工具是可以放置在主界面的.快速控制应用的小助手.例如我们的音乐小工具,它可以帮助用户在桌面上就完成音乐的暂停.播放.切换等操作,而不需要启动应用本身. 在安卓系统中,我们也常常叫它App widget. 实现一个App widget要经过以下几个步骤, 创建一个App widget类,让它继承自AppWidgetProvider,例如AnddleMusicAppWidget类: 放在res\layout目录下,为App widget的界面定义一个布局,例如anddle_

这些小工具让你的Android 开发更高效

在做Android 开发过程中,会遇到一些小的问题,虽然自己动手也能解决,但是有了一些小工具,解决这些问题就得心应手了,今天就为大家推荐一下Android 开发遇到的小工具,来让你的开发更高效. Vysor Vysor 是一个可以将手机的屏幕投影到电脑上,当然也可以操作,当我们做分享或者演示的时候,这个工具起到了作用. Vector Asset Android Studio 在1.4 支持了VectorAsset,所谓VectorAsset:它可以帮助你在Android 项目中添加Materia