BWT (Burrows–Wheeler_transform)数据转换算法

转自:http://www.cnblogs.com/xudong-bupt/p/3763814.html

具体分析见:http://blog.csdn.net/windroid/article/details/50570450

1.什么是BWT

  压缩技术主要的工作方式就是找到重复的模式,进行紧密的编码。

  BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻,之后可以使用其他技术如:Move-to-front transform 和 游程编码 进行文本压缩。

2.BWT原理

2.1 BWT编码

  (1)首先,BWT先对需要转换的文本块,进行循环右移,每次循环一位。可以知道长度为n的文本块,循环n次后重复,这样就得到看n个长度为n的字符串。如下图中的“Rotate Right”列。(其中‘#’作为标识符,不在文本块的字符集中,这样保证n个循环移位后的字符串均布相同。并且定义‘#‘小于字符集中的任意字符)。

   (2)对循环移位后的n个字符串按照字典序排序。如下图中的“Sorted (M)”列。

   (3)记录下“Sorted (M)”列中每个字符串的最后一个字符,组成了“L”列。(其中"F"列是“Sorted (M)”列中每个字符串的前缀)

  这样,原来的字符串“banana#”就转换为了“annb#aa”。在某些情况下,使用L列进行压缩会有更好的效果。“L”列就是编码的结果。

2.2 BWT解码

  因为进行的是循环移位,且是循环左移注意下面的性质:

  1、L的第一个元素是Text中的最后一个元素

  2、对于M中的每一行(第一行除外)第一个元素都是最后一个元素的下一个元素。

      也就是说,对于文本块而言,同一行中F是L的下一个元素,L是F的前一个元素。

  这样,就需要

  (1)通过"F"列中的元素,找到他前面的字符,就是对应的同一行“L”列;

  (2)通过“L”列中的元素,找到他在“F”列中的对应字符位置。但是“L”中有3个字符a,如何对应F中的3个a呢?因为L是F的前一个元素,多个具有相同前缀的字符串排序,去掉共同前缀后相对次序没有变化。所有遇到多个相同的字符,相对位置不变;

  (3)转到(1),直到结束。

  因为F列是已经排序的,可以从L列获得,所有只需要保存L列就可以。从L列中的字符获取在F列中的位置时,需要:

  (1)前缀和数组,记录小于当前字符的字符数个数。

  (2)count计数,计算L中从开始位置到当前字符位置等于该字符的字符数。(保证多个相同字符下"L"到“F”的相对位置不变)。

3.BWT文本块编码、解码实例

 1 #include <iostream>
 2 #include <string>
 3 #include <algorithm>
 4 #include <string.h>
 5 using namespace std;
 6
 7 ///编码,生成last数组
 8 int getLastArray(char *lastArray,const string &str){    ///子串排序
 9     int len=str.size();
10     string array[len];
11
12     for(int i=0;i<len;i++){
13         array[i] = str.substr(i);
14     }
15     sort(array,array+len);
16     for(int i=0;i<len;i++){
17         lastArray[i] = str.at((2*len-array[i].size()-1)%len);
18     }
19     return 0;
20 }
21
22 int getCountPreSum(int *preSum,const string &str){
23     memset(preSum,0,27*sizeof(int));
24     for(int i=0;i<str.size();i++){
25         if(str.at(i) == ‘#‘)
26             preSum[0]++;
27         else
28             preSum[str.at(i)-‘a‘+1]++;
29     }
30
31     for(int i=1;i<27;i++)
32         preSum[i] += preSum[i-1];
33     return 0;
34 }
35
36 ///解码,使用last数组,恢复原来的文本块
37 int regainTextFromLastArray(char *lastArray,char *reGainStr,int *preSum){
38     int len=strlen(lastArray);
39     int pos=0;
40     char c;
41     for(int i=len-1;i>=0;){
42         reGainStr[i] = lastArray[pos];
43         c = lastArray[pos];
44         pos = preSum[c-‘a‘]+count(lastArray,lastArray+pos,c);
45         i--;
46     }
47     return 0;
48 }
49
50 int main (){
51     string str("sdfsfdfdsdfgdfgfgfggfgdgfgd#");
52     int preSum[27];
53     int len=str.size();
54
55     char *lastArray = new char[len+1];
56     char *reGainStr = new char[len+1];
57     lastArray[len]=‘\0‘;
58     reGainStr[len]=‘\0‘;
59
60     getCountPreSum(preSum,str);
61     getLastArray(lastArray,str);
62     regainTextFromLastArray(lastArray,reGainStr,preSum);
63
64     cout<<"       str: "<<str<<endl;
65     cout<<"lastArray : "<<lastArray<<endl;
66     cout<<"reGainStr : "<<reGainStr<<endl;
67
68     delete lastArray;
69     delete reGainStr;
70     return 0;
71 }

  

代码执行输出:

参考:

http://en.wikipedia.org/wiki/Burrows%E2%80%93Wheeler_transform

http://emily2ly.iteye.com/blog/742869

额外阅读:

MTF(Move-to-front transform)数据转换

基于统计的压缩算法:游程编码

时间: 2024-10-10 01:21:42

BWT (Burrows–Wheeler_transform)数据转换算法的相关文章

BWT(Burrows-Wheeler Transformation)的讲解及java实现

BWT(Burrows-Wheeler Transformation) 1.什么是BWT 压缩技术主要的工作方式就是找到重复的模式,进行紧密的编码. BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻,之后可以使用其他技术如:Move-to-front transform 和 游程编码 进行文本压缩. 2.BWT原理 2.1 BWT编码 (1)首先,BWT先对需要转换的文本块,进行循环右移,每次循环一位.可以知道长度

BWT 压缩解压缩算法介绍 poj 1147

poj上1147题, 题意:任意一个长度为N的字符串,循环左移一个字符长度,这样形成N个新字符串,将这N个字符串按字典顺序排序,从上到下取得排序后的每行最后一列的的所有字符,求排序后的第一行字符串? 举个简单例子: 原串为: 0 0 0 1 1 那么循环左移排序后的矩阵为: 0 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 0 0 0 1 1 1 0 0 0 那么我们得到最后列的字符串为: 1 0 0 1 0 现在我们只知道最后列的字符串 1 0 0 1 0,让我们求循环左移排序后

数据结构与算法 3:二叉树,遍历,创建,释放,拷贝,求高度,面试,线索树

[本文谢绝转载,原文来自http://990487026.blog.51cto.com] 树 数据结构与算法 3:二叉树,遍历,创建,释放,拷贝,求高度,面试,线索树 二叉树的创建,关系建立 二叉树的创建,关系建立2 三叉链表法 双亲链表: 二叉树的遍历 遍历的分析PPT 计算二叉树中叶子节点的数目:使用全局变量计数器 计算二叉树中叶子节点的数目:不使用全局变量计数器 无论是先序遍历,中序遍历,后序遍历,求叶子的数字都不变;因为本质都是一样的,任何一个节点都会遍历3趟 求二叉树的高度 二叉树的拷

轨迹压缩之Douglas-Peucker算法之Java实现

第一部分 问题描述 1.1 具体任务 本次作业任务是轨迹压缩,给定一个GPS数据记录文件,每条记录包含经度和维度两个坐标字段,所有记录的经纬度坐标构成一条轨迹,要求采用合适的压缩算法,使得压缩后轨迹的距离误差小于30m. 1.2 程序输入 本程序输入是一个GPS数据记录文件. 1.3 数据输出 输出形式是文件,包括三部分,压缩后点的ID序列及坐标.点的个数.平均距离误差.压缩率 第二部分 问题解答 根据问题描述,我们对问题进行求解,问题求解分为以下几步: 2.1 数据预处理 本次程序输入为GPS

Spark MLlib KMeans聚类算法

1.1 KMeans聚类算法 1.1.1 基础理论 KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇.然后按平均法重新计算各个簇的质心,从而确定新的簇心.一直迭代,直到簇心的移动距离小于某个给定的值. K-Means聚类算法主要分为三个步骤: (1)第一步是为待聚类的点寻找聚类中心: (2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去: (3)第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心: 反复执行(

Python KNN算法

机器学习新手,接触的是<机器学习实战>这本书,感觉书中描述简单易懂,但对于python语言不熟悉的我,也有很大的空间.今天学习的是k-近邻算法. 1. 简述机器学习 在日常生活中,人们很难直接从原始数据本身获得所需信息.而机器学习就是把生活中无序的数据转换成有用的信息.例如,对于垃圾邮件的检测,侦测一个单词是否存在并没有多大的作用,然而当某几个特定单词同时出现时,再辅以考虑邮件的长度及其他因素,人们就可以更准确地判定该邮件是否为垃圾邮件. 机器学习分为监督学习和无监督学习,其中: (1)监督学

Spark 贝叶斯分类算法

一.贝叶斯定理数学基础 我们都知道条件概率的数学公式形式为 即B发生的条件下A发生的概率等于A和B同时发生的概率除以B发生的概率. 根据此公式变换,得到贝叶斯公式:  即贝叶斯定律是关于随机事件A和B的条件概率(或边缘概率)的一则定律.通常,事件A在事件B发生的条件溪的概率,与事件B在事件A的条件下的概率是不一样的,而贝叶斯定律就是描述二者之间的关系的. 更进一步将贝叶斯公式进行推广,假设事件A发生的概率是由一系列的因素(A1,A2,A3,...An)决定的,则事件A的全概率公式为: 二.朴素贝

mahout之旅---分布式推荐算法ALS-MR

Mahout分布式推荐系统--基于矩阵分解的协同过滤系统 1.实例环境 Mahout版本:mahout-0.9: Hadoop版本:hadoop-1.2.1: Jdk版本:java1.7.0_13 分布式系统:centos: 集群规模:master .slavex.slavey.slavez 2.实例脚本 目前技术博文对mahout0.9版本的简介的也是不忍直视.这里系列博客对mahout0.9版本自带的基于矩阵分解的协同过滤系统算法的讲解.一个首先不管怎么样,先把程序跑起来,mahout自带了

机器学习实战ByMatlab(二)PCA算法

PCA 算法也叫主成分分析(principal components analysis),主要是用于数据降维的. 为什么要进行数据降维?因为实际情况中我们的训练数据会存在特征过多或者是特征累赘的问题,比如: 一个关于汽车的样本数据,一个特征是"km/h的最大速度特征",另一个是"英里每小时"的最大速度特征,很显然这两个特征具有很强的相关性 拿到一个样本,特征非常多,样本缺很少,这样的数据用回归去你和将非常困难,很容易导致过度拟合 PCA算法就是用来解决这种问题的,其