动规讲解基础讲解六——编辑距离问题

给定两个字符串S和T,对于T我们允许三种操作:

(1) 在任意位置添加任意字符
(2) 删除存在的任意字符
(3) 修改任意字符

问最少操作多少次可以把字符串T变成S?

例如: S=  “ABCF”   T = “DBFG”

那么我们可以

(1) 把D改为A
(2) 删掉G
(3) 加入C

所以答案是3。

分析: 这个最少的操作次数,通常被称之为编辑距离。“编辑距离”一次本身具有最短的意思在里面。因为题目有“最短”这样的关键词,首先我们想到的是BFS。是的,当S的距离为m, T的距离为n的时候,我们可以找到这样的操作次数的界限:

(1) 把T中字符全删了,再添加S的全部字符,操作次数m + n。
(2) 把T中字符删或加成m个,再修改 操作次数最多 |n – m| + m。

虽然,我们找到了这样的上界,BFS从实际角度并不可行,因为搜索空间是指数的,这取决于S中的字符种类——具体的数量级不好估计。

这个问题之所以难,是难在有“添加”“删除”这样的操作,很麻烦。我们试试换个角度理解问题,把它看成字符串对齐的问题,事实上从生物信息学对比基因的角度,我们可以这样理解问题。

给定字符串S和T,我们可以用一种特殊字符促成两个字符串的对齐。我们加的特殊字符是“-”, 我们允许在S和T中任意添加这种特殊字符使得它长度相同,然后让这两个串“对齐”,最终两个串相同位置出现了不同字符,就扣1分,我们要使得这两个串对齐扣分尽量少。

对于例子 我们实际上采取了这样的对齐方式:

12345
ABCF-
DB-FG

注意:如果要对齐,两个“-”相对是没有意义的,所以我们要求不出现这种情况。
那么看一下:
(1) S,T对应位置都是普通字符,相同,则不扣分。 例如位置2,4
(2) S,T对应位置都是普通字符,不同,则扣1分。 例如位置1
(3) S在该位置是特殊字符,T在该位置是普通字符,则扣1分,例如位置5
(4) S在该位置是普通字符,T在该位置是特殊字符,则扣1分,例如位置3

我们来看看扣分项目对应什么?

(1) 不扣分,直接对应
(2) 对应把T中对应位置的字符修改
(3) 对应在T中删除该字符
(4) 对应在T中添加该字符

好了,目标明确,感觉像不像 LCS?我们尝试一下:
设f(i,j)表示S的前i位和T的前j位对齐后的最少扣分。

那我们来看看最后一位,对齐的情况

(1) 必须S[i] == T[j], 这时前i – 1和j – 1位都已经对齐了,这部分肯定要最少扣分。这种情况下最少的扣分是f(i-1,j-1)
(2) 和(1)类似,S[i]≠T[j],这种情况下最少的扣分是f(i -1, j – 1) + 1
(3) S的前i位和T的前(j – 1)位已经对齐了,这部分扣分也要最少。这种情况下最少的扣分是f(i,j-1) + 1
(4) S的前(i-1)位已经和T的前j位对齐了,这部分扣分要最少。这种情况下最少的扣分是f(i,j-1) + 1

具体f(i,j)取什么值,显然是要看哪种情况的扣分最少。

为了方便,我们定义函数same(i,j)表示如果S[i] == T[j]则为0,否则为1。

我们来表示一下递推式:

f(i,j) = min(f(i – 1, j – 1) + same(i,j), f(i – 1,j ) + 1, f(i, j – 1) + 1)

初值是什么?

f(0, j) = j
f(i, 0) = i

这时因为对于S的前0位,我们只能在之前加入“-”,或者说把T全部删掉了。类似地,对于T地前0位,我们只能把S的字符都加进来,别无选择。
注意上述两个式子的重合点 f(0,0) = 0也符合我们的定义,并不矛盾。

时间复杂度? O(m * n),空间复杂度? O(m * n)。同样我们发现到f(i,j)只与本行和上一行有关,可以省掉一维的空间复杂度,从而达到O(n)。
优化后的伪代码:

for j = 0 to n do
    f[j] = j
endfor

for i = 1 to m do
    last = f[0]
    f[0] = i
    for j = 1 to n do
        temp = f[i,j]
        f[i,j] = min(last + same(i,j), temp + 1, f[j – 1] + 1)
        last = temp
    endfor
endfor

注意: 我们对于i实际上更新j的顺序是由小到达的,所以我们需要保存“旧的”f[i-1,j – 1]。

题解:

#include<iostream>
#include<cstdio>
#include<cstring>
using namespace std;
char a[1010],b[1010];
int f[1010][1010];
int main()
{
    cin>>a;
    cin>>b;
    int m=strlen(a);
    int n=strlen(b);
    for(int i=1;i<=m;i++)    f[i][0]=i;
    for(int j=1;j<=n;j++)    f[0][j]=j;
    for(int i=1;i<=m;i++)
      for(int j=1;j<=n;j++)
          if(a[i-1]==b[j-1])    f[i][j]=f[i-1][j-1];
          else f[i][j]=min(min(f[i-1][j-1],f[i-1][j]),f[i][j-1])+1;
    cout<<f[m][n];
} 

如果对你有所帮助,别忘了加好评哦;么么哒!!下次见!88

时间: 2024-10-13 21:33:26

动规讲解基础讲解六——编辑距离问题的相关文章

动规讲解基础讲解一——01背包(模板)

作为动态规划的基础,01背包的思想在许多动规问题中会经常出现,so,熟练的掌握01背包的思路是极其重要的: 有n件物品,第i件物品(I = 1,2,3…n)的价值是vi, 重量是wi,我们有一个能承重为m的背包,我们选择一些物品放入背包,显然放入背包的总重量不超过m.我们要求选择物品的总价值最大,请问如何选择?这里我们假设所有出现的数都是正整数. 第一想法是? (1) 枚举?万能的枚举啊.但对于n件物品,每件都可以选择取或者不取,总的可能性有2n, n = 30就大约已经有10亿种可能了!枚举所

动规讲解基础讲解五——最长公共子序列问题

一些概念: (1)子序列: 一个序列A = a1,a2,……an,中任意删除若干项,剩余的序列叫做A的一个子序列.也可以认为是从序列A按原顺序保留任意若干项得到的序列. 例如: 对序列 1,3,5,4,2,6,8,7来说,序列3,4,8,7 是它的一个子序列.对于一个长度为n的序列,它一共有2^n 个子序列,有(2^n – 1)个非空子序列. 请注意:子序列不是子集,它和原始序列的元素顺序是相关的. (2)公共子序列 : 顾名思义,如果序列C既是序列A的子序列,同时也是序列B的子序列,则称它为序

动规讲解基础讲解七——最长单增子序列

(LIS Longest Increasing Subsequence)给定一个数列,从中删掉任意若干项剩余的序列叫做它的一个子序列,求它的最长的子序列,满足子序列中的元素是单调递增的. 例如给定序列{1,6,3,5,4},答案是3,因为{1,3,4}和{1,3,5}就是长度最长的两个单增子序列. 处看此题,怎么做? 万能的枚举?枚举全部2^n个子序列,找出最长的,固然可以,就是复杂度太高.我们为什么要枚举呢?因为要知道取了哪些数,其实我们只需要考虑上一个数和取了几个数就可以了吧?因为单增的意思

动规讲解基础讲解八——正整数分组

将一堆正整数分为2组,要求2组的和相差最小.例如:1 2 3 4 5,将1 2 4分为1组,3 5分为1组,两组和相差1,是所有方案中相差最少的. 整数个数n<=100,所有整数的和<=10000 初看题目,第一想到贪心.怎么贪?排序,每次把数放到“最有利”的一边,最有利指的是每次都把数放到使得结果差值尽可能小的那边.这样的方法显然前两个数只能分到不同的组了,这是不对的.比如{1,2,3},这种贪心会把1和2分开,显然得不到最优解. 最优解是{1,2}在一起,3自己在一组. 是不是如果找到一个

动规讲解基础讲解四——最大子段和问题

给出一个整数数组a(正负数都有),如何找出一个连续子数组(可以一个都不取,那么结果为0),使得其中的和最大? 例如:-2,11,-4,13,-5,-2,和最大的子段为:11,-4,13.和为20. 看见这个问题你的第一反应是用什么算法? (1) 枚举?对,枚举是万能的!枚举什么?子数组的位置!好枚举一个开头位置i,一个结尾位置j>=i,再求a[i..j]之间所有数的和,找出最大的就可以啦.好的,时间复杂度? (1.1)枚举i,O(n)(1.2)枚举j,O(n)(1.3)求和a[i..j],O(n

动规讲解基础讲解四——矩阵取数

给定一个m行n列的矩阵,矩阵每个元素是一个正整数,你现在在左上角(第一行第一列),你需要走到右下角(第m行,第n列),每次只能朝右或者下走到相邻的位置,不能走出矩阵.走过的数的总和作为你的得分,求最大的得分. 初看此题,你的思路是什么? (1) 贪心? 先走到大的数再说?看这个例子: 无论你以什么方式走到3,总和都是1 + 1 + 3 + 1 + 1 + 1 + 1 = 9我们为了1个3,放弃了那么多个2, 不值啊.如果我们放弃3而走那些2, 得到的和是1 + 1 + 2 + 2 + 2 + 1

【BZOJ3875】【Ahoi2014】骑士游戏 SPFA处理有后效性动规

广告: #include <stdio.h> int main() { puts("转载请注明出处[vmurder]谢谢"); puts("网址:blog.csdn.net/vmurder/article/details/44040735"); } 题解: 首先一个点可以分裂成多个新点,这样就有了图上动规的基础. 即f[i]表示i点被消灭的最小代价,它可以由分裂出的点们更新. 但是这个东西有后效性,所以我们用SPFA来处理它. spfa处理后效性动规 我

0-1背包问题(动规基础,好吧虽然我现在在说大话,待续...)

(此位老兄的讲解深得我意,特来推荐:http://blog.csdn.net/insistgogo/article/details/8579597) 有N件物品和一个容量为V的背包.第i件物品的费用是c[i],价值是w[i].求解将哪些物品装入背包可使这些物品的费用总和不超过背包容量,且价值总和最大. POINT: 1·每种物品仅有一件,可以选择放或不放. 2·子问题---将前i件物品放入容量为V的背包中.价值总和为f[i][V]; 若只考虑第i件物品的策略(放或不放),那么就可以转化为一个只牵

Oracle之索引(Index)实例讲解 - 基础

Oracle之索引(Index)实例讲解 - 基础 索引(Index)是关系数据库中用于存放表中每一条记录位置的一种对象,主要目的是加快数据的读取速度和数据的完整性检查.索引的建立是一项技术性要求非常高的工作. 一般在数据库设计阶段就要考虑到如何设计和创建索引. 1. 创建索引 创建索引的语法: CREATE [UNIQUE] INDEX [schema.] index ON [schema.] table (column [ASC | DESC], column [ASC | DESC]...