用哈弗曼编码实现文件压缩和解压

放假了把这个改一下，发现确实用单字节压缩的压缩率要高一些，暂时没去管为什么，不过放假静下心来写的话确实效率高很多。

新版详见:http://blog.csdn.net/tookkke/article/details/50575103

~~今天脑洞大开突然想写一下，明明都要考试了,唉，怎么就管不住这手啊~~

总之呢，就是根据每种编码的出现频率把等长的编码换成变长的，据说理论上压缩比率是比较高的，可是为什么经检验我这个大部分时候压缩出来的比源文件还大呢？

哈弗曼编码的时候要先做一颗字典树，查找的时候就按照当前一位是0还是1，找到叶子节点就找到了原编码。生成这颗树用一种贪心法，每次选两个出现频率最小的节点出来，连在一个新的节点上，再把该节点加入优先队列，它的频率是两个节点频率之和。

我这里把整棵生成的树都保存在了新文件中，然后同时保留的是新文件中内容转换成的变长编码总长度(bit 为单位，不能保证一定是8的倍数)，还有把原编码看成二个字节一组，共65536种状态，因为不能保证字节数一定是偶数，所以新文件又用了二个字节保存它，多出来的就直接添加到新文件末尾了。

这是压缩程序，得到的文件名是原名+.kcps(随便写写也没那么多注释了)

#include <cstdio>
#include <cstring>
#include <iostream>
#include <algorithm>
#include <queue>

#define MAX_WORD (65536)
#define MAX_BYTE (256)

using namespace std;

typedef unsigned char BYTE;
typedef unsigned short WORD;
typedef unsigned long DWORD;
typedef unsigned long long ULL;

ULL cnt[MAX_WORD*2];//number of each WORD
WORD exBYTE=MAX_BYTE;//if exBYTE exists,it will less than MAX_BYTE
ULL bit_num;
FILE *infp,*outfp;
ULL kkke[MAX_WORD][2];

int tree_size=MAX_WORD*2;
struct the_tree{
	int son[2];
}tree[MAX_WORD*2];//root is 1

struct cmp{
	bool operator()(int a,int b)
	{
		return cnt[a]>cnt[b];
	}
};

void open_file()
{
	char filename[80],outfilename[80];
	printf("please input the original file: ");
	scanf("%s",filename);
	strcpy(outfilename,filename);
	strcat(outfilename,".kcps");
	if((infp=fopen(filename,"rb"))==NULL)
	{
		printf("fail to open original file\n");
		exit(1);
	}
	if((outfp=fopen(outfilename,"wb"))==NULL)
	{
		printf("fail to create new file\n");
		exit(1);
	}
}

void close_file()
{
	if(fclose(infp))
	{
		printf("fail to close original file\n");
		exit(1);
	}
	if(fclose(outfp))
	{
		printf("fail to close new file\n");
	}
}

void read_data()
{
	int len;
	WORD a;
	while(len=fread(&a,sizeof(BYTE),sizeof(WORD)/sizeof(BYTE),infp))
	{
		if(len==1)
		{
			exBYTE=a%MAX_BYTE;
			break;
		}
		cnt[a+MAX_WORD]++;
	}
}

void build_tree()
{
	priority_queue<int,vector<int>,cmp>q;
	for(int i=MAX_WORD+MAX_WORD-1;i>=MAX_WORD;i--)q.push(i);
	for(int i=MAX_WORD-1;i;i--)
	{
		tree[i].son[0]=q.top();q.pop();
		tree[i].son[1]=q.top();q.pop();
	    cnt[i]=cnt[tree[i].son[0]]+cnt[tree[i].son[1]];
	    q.push(i);
	}
}

void dfs(int k,ULL a,int cnt)
{
	if(k>=MAX_WORD)
	{
		k-=MAX_WORD;
		kkke[k][0]=a;
		kkke[k][1]=cnt;
	}
	else
	{
		dfs(tree[k].son[0],a<<1,cnt+1);
		dfs(tree[k].son[1],(a<<1)|1,cnt+1);
	}
}

/**********************/
/*****  tree      *****/
/*****  bit_num   *****/
/*****  cps       *****/
/*****  exBYTE    *****/
/**********************/

void output()
{
	for(int i=1;i<tree_size;i++)fwrite(&tree[i],sizeof(tree[i]),1,outfp);
	fseek(infp,0,SEEK_SET);
	WORD a;
	BYTE b=(BYTE)0;
	for(int i=0;i<MAX_WORD;i++)bit_num+=cnt[i+MAX_WORD]*kkke[i][1];
	fwrite(&bit_num,sizeof(bit_num),1,outfp);
	bit_num=0;
	while(fread(&a,sizeof(BYTE),sizeof(WORD)/sizeof(BYTE),infp)==sizeof(WORD)/sizeof(BYTE))
	{
		for(long long i=kkke[a][1]-1LL;i>=0LL;i--)
		{
			if(kkke[a][0]&(1ULL<<i))b+=(BYTE)1<<(bit_num%8);
			bit_num++;
			if(bit_num%8==0)
			{
				fwrite(&b,sizeof(b),1,outfp);
				b=0;
			}
		}
	}
	if(bit_num%8)fwrite(&b,sizeof(b),1,outfp);
	fwrite(&exBYTE,sizeof(exBYTE),1,outfp);
}

int main()
{
	open_file();
	read_data();
	build_tree();
	dfs(1,0ULL,0);
	output();
	close_file();
	return 0;
}

然后是解压程序，得到程序是(new)+原名,如果有.kcps就去掉

#include <cstdio>
#include <cstring>
#include <iostream>
#include <algorithm>
#include <queue>

#define MAX_WORD (65536)
#define MAX_BYTE (256)

using namespace std;

typedef unsigned char BYTE;
typedef unsigned short WORD;
typedef unsigned long DWORD;
typedef unsigned long long ULL;

ULL cnt[MAX_WORD*2];//number of each WORD
WORD exBYTE=MAX_BYTE;//if exBYTE exists,it will less than MAX_BYTE
ULL bit_num;
FILE *infp,*outfp;
ULL kkke[MAX_WORD][2];

int tree_size=MAX_WORD*2;
struct the_tree{
	int son[2];
}tree[MAX_WORD*2];//root is 1

void open_file()
{
	char filename[80],outfilename[80];
	printf("please input the compressed file: ");
	scanf("%s",filename);
	if((infp=fopen(filename,"rb"))==NULL)
	{
		printf("fail to open compressed file\n");
		exit(1);
	}
	char *a=strstr(filename,".kcps");
	if(a!=NULL)*a='\0';
	strcpy(outfilename,"(new)");
	strcat(outfilename,filename);
	if((outfp=fopen(outfilename,"wb"))==NULL)
	{
		printf("fail to create new file\n");
		exit(1);
	}
}

void close_file()
{
	if(fclose(infp))
	{
		printf("fail to close compressed file\n");
		exit(1);
	}
	if(fclose(outfp))
	{
		printf("fail to close new file\n");
	}
}

/**********************/
/*****  tree      *****/
/*****  bit_num   *****/
/*****  cps       *****/
/*****  exBYTE    *****/
/**********************/

void read_data()
{
    for(int i=1;i<tree_size;i++)fread(&tree[i],sizeof(tree[i]),1,infp);
	fread(&bit_num,sizeof(bit_num),1,infp);
}

void output()
{
	BYTE a;
	WORD b;
	int now_node=1;
	for(int i=0;i<bit_num;i++)
	{
		if(i%8==0)fread(&a,sizeof(a),1,infp);
		if(a&((BYTE)1<<(i%8)))
		{
		    now_node=tree[now_node].son[1];
		}
		else
		{
		    now_node=tree[now_node].son[0];
		}
		if(now_node>=MAX_WORD)
		{
			b=now_node-MAX_WORD;
			fwrite(&b,sizeof(b),1,outfp);
			now_node=1;
		}
	}
	fread(&exBYTE,sizeof(exBYTE),1,infp);
	if(exBYTE<MAX_BYTE)fwrite(&exBYTE,sizeof(exBYTE),1,outfp);
}

int main()
{
	open_file();
	read_data();
	output();
	close_file();
	return 0;
}

然后是怨念，为什么要考试了我却还没复习的心情啊啊啊啊啊啊啊啊，为什么这个压缩程序实际上还把源文件放大了啊啊啊啊啊啊啊，难道只能当成加密程序用了吗？？？

高兴的是其实有一次压缩吧10000K压成了9000K，还是挺开心的，虽然只有一次...

时间： 2024-12-26 15:05:06

用哈弗曼编码实现文件压缩和解压

用哈弗曼编码实现文件压缩和解压的相关文章

34模块-zip【文件压缩和解压、图片压缩和编辑】

c#自带类实现的多文件压缩和解压

基于哈夫曼编码的文件压缩（c++版）

.net文件压缩和解压及中文文件夹名称乱码问题

C# ICSharpCode.SharpZipLib.dll文件压缩和解压功能类整理，上传文件或下载文件很常用

python学习shutil模块的文件压缩和解压用法

iOS网络-ZipArchive框架的文件压缩和解压

4_Linux_文件压缩和解压指令

Linux文件压缩和解压使用记录