【算法总结】哈夫曼树和哈夫曼编码

一、哈夫曼树

1. 哈夫曼树也称最优二叉树。

　叶子节点的权值是对叶子节点赋予的一个有意义的数值量。

　设二叉树具有 n 个带权值的叶子结点，从根节点到各个叶子结点的路径长度与相应叶子结点权值的乘积之和叫做二叉树的带权路径长度。

　给定一组具有确定权值的叶子结点，可以构造处不同的二叉树，将其中带权路径长度最小的二叉树称为哈夫曼树。

2. 基本思想：

初始化：由给定的 n 个权值 $\left\{ \omega_{1},\omega_{2},\cdots ,\omega_{n}\right\}$构造 n 棵只有一个根节点的二叉树，从而得到一个二叉树集合$F=\left\{T_{1},T_{2},\cdots,T_{n}\right\}$。
选取与合并：在$F$中选取根节点的权值最小的两颗二叉树分别作为左右子树构造一棵新的二叉树（一般情况下将权值大的结点作为右子树。），这棵新二叉树的根节点的权值为其左、右子树根节点的权值之和。
删除与加入：在$F$中删除作为左、右子树的两棵二叉树，并将新建立的二叉树加入到$F$中。
重复上述两个步骤，当集合$F$中只剩下一棵二叉树时，这棵二叉树便是哈夫曼树。

　　由哈夫曼算法构造的哈夫曼树中，非叶子节点的度均为2。具有 n 个叶子结点的哈夫曼树公有 2n-1个结点，其中有 n-1 个非叶子结点。它们是在 n-1 次的合并过程中生产的。

二、哈夫曼编码

1. 哈夫曼编码是一种可变字长编码

　如果一组编码中任一编码都不是其他任何一个编码的前缀，我们称这组编码为前缀编码。哈夫曼树可用于构造最短的不等长编码方案。

2. 算法流程

　　规定哈夫曼编码树的作分支代表 0，右分支代表 1，则从根结点到每个叶子结点所经过的路径组成的 0 和 1 的序列便成为该叶子结点对应字符的编码。

　　解码则是将编码串从左到右逐位判别，直到确定一个字符。

　　哈夫曼编码树中，树的带权路径长度的含义是各个字符的码长与其出现次数的乘积之和，所以采用哈夫曼树构造的编码是一种能使字符串的编码总长度最短的不等长编码。

原文地址：https://www.cnblogs.com/Atanisi/p/8672540.html

时间： 2024-10-14 11:50:14

【算法总结】哈夫曼树和哈夫曼编码的相关文章

哈夫曼树与哈夫曼编码

哈夫曼树与哈夫曼编码术语: i)路径和路径长度在一棵树中,从一个结点往下可以达到的孩子或孙子结点之间的通路,称为路径. 路径中分支的数目称为路径长度.若规定根结点的层数为1,则从根结点到第L层结点的路径长度为L-1. ii)结点的权及带权路径长度若对树中的每个结点赋给一个有着某种含义的数值,则这个数值称为该结点的权. 结点的带权路径长度为:从根结点到该结点之间的路径长度与该结点的权的乘积. iii)树的带权路径长度树的带权路径长度:所有叶子结点的带权路径长度之和,记为WPL. 先了解一下

【数据结构】树与树的表示、二叉树存储结构及其遍历、二叉搜索树、平衡二叉树、堆、哈夫曼树与哈夫曼编码、集合及其运算

1.树与树的表示什么是树? 客观世界中许多事物存在层次关系人类社会家谱社会组织结构图书信息管理分层次组织在管理上具有更高的效率! 数据管理的基本操作之一:查找(根据某个给定关键字K,从集合R 中找出关键字与K 相同的记录).一个自然的问题就是,如何实现有效率的查找? 静态查找:集合中记录是固定的,没有插入和删除操作,只有查找动态查找:集合中记录是动态变化的,除查找,还可能发生插入和删除静态查找--方法一:顺序查找(时间复杂度O(n)) int SequentialSearch(St

Huffman tree(赫夫曼树、霍夫曼树、哈夫曼树、最优二叉树)

flyfish 2015-8-1 Huffman tree因为翻译不同所以有其他的名字赫夫曼树.霍夫曼树.哈夫曼树定义引用自严蔚敏<数据结构> 路径从树中一个结点到另一个结点之间的分支构成两个结点之间的路径. 路径长度路径上的分支数目称作路径长度. 树的路径长度树的路径长度就是从根节点到每一结点的路径长度之和. 结点的带权路径长度结点的带权路径长度就是从该结点到根节点之间的路径长度与结点上权的乘积. 树的带权路径长度树的带权路径长度就是树中所有叶子结点的带权路径长度之和,通常记做

哈夫曼树以及哈夫曼编码的问题

今天看到一个哈夫曼编码的题目,给定一个字符串abcdabaa,问哈夫曼编码后的二进制串的总长度是多少,答案是14 对于哈夫曼树我是一点都不了解啊,所以一顿查找,总结出以下知识点,与大家分享:当然部分内容参考了下百度哈夫曼树又称为最优二叉树,是一种带权路径最短的二叉树.哈夫曼树是二叉树的一种应用,在信息检索中很常用. 一些相关的概念: 1.节点之间的路径长度:从一个节点到另一个节点之间的分支数量称为两个节点之间的路径长度. 2.树的路径长度:从根节点到树中每一个节点的路径长度之和. 3.节点的带

哈夫曼树及哈夫曼编码

一,引言如上图,是一个判断体重在什么范围内的判定树,例如,学校体检的时候,我们反复用这个算法,当你输入一个体重:200斤,然后程序就开始反复判断了,经过三次判断,它发现你过重,然后重启系统了,又来一个人,还是200斤,三次判断之后,又系统重启了-后面的200多个200多斤的盘子判断完了之后,来了个120的,终于是个比较正常的体重了,但是系统一判断完,系统还是重启,反复检查之后,发现你那台8086时代的电脑终于撑不住了~ 于是你改了下算法,换了一棵判定树,这次,先判断这个人是不是个200多斤的胖

哈夫曼树和哈夫曼编码

在一般的数据结构的书中,树的那章后面,著者一般都会介绍一下哈夫曼(HUFFMAN)树和哈夫曼编码.哈夫曼编码是哈夫曼树的一个应用.哈夫曼编码应用广泛,如JPEG中就应用了哈夫曼编码. 首先介绍什么是哈夫曼树. 哈夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树.所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数).树的带权路径长度记为WPL= (W1*L1+W2*L2+W3*L3+...+Wn*Ln),N个权值W

[数据结构] AVL树和AVL旋转、哈夫曼树和哈夫曼编码

1. AVL树 AVL树中任何节点的两个子树的高度最大差别为一,所以它也被称为高度平衡树.查找.插入和删除在平均和最坏情况下都是O(log n).增加和删除可能需要通过一次或多次树旋转来重新平衡这个树. 节点的平衡因子是它的左子树的高度减去它的右子树的高度(有时相反).带有平衡因子1.0或 -1的节点被认为是平衡的.带有平衡因子 -2或2的节点被认为是不平衡的,并需要重新平衡这个树.平衡因子可以直接存储在每个节点中,或从可能存储在节点中的子树高度计算出来. 1.2AVL旋转 AVL树的基本操作一

数据结构--树（下）--哈夫曼树与哈夫曼编码

什么是哈夫曼树? 编码这个问题,二进制的形式,等长码.出现频率高的不登场编码,效率能提高. 将百分制的考试成绩转换成五分制的成绩. 判定树同一件事情,我们用了不通的判定树,就得出了不同的效率 so........如何根据结点不通的查找频率构造更有效地搜索树?这就是哈夫曼舒要解决的问题. 哈夫曼树的定义: 带权路径长度(WPL):设二叉树有n个叶子节点,每个叶子节点带有权重wk,从根节点到叶子节点的长度为lk,则每个叶子节点的带权路径长度之和就是哈夫曼树又叫最优二叉树. 哈夫曼树就是让WPL

数据结构——第二章树和森林：04哈夫曼树与哈夫曼编码

1.结点的路径长度:从根结点到该结点的路径上分支的数目. 2.树的路径长度:树中每个结点的路径长度之和. 3.树的带权路径长度:树中所有叶子结点的带权路径长度之和WPL(T) = ∑wklk(对所有叶子结点) 4.最优树:在所有含n个结点,并带相同权值的m叉树中,必存在一棵其带权路径长度取最小值的树,称为最优树. 5.哈夫曼算法构造最优树:以二叉树为例: (1)根据给定的n个权值{w1, w2, ... , wn}构造n棵二叉树的集合F = {T1, T2, ... ,Tn},其中每棵二叉树中均