编辑距离及编辑距离算法(求字符的相似度) js版

编辑距离概念描述:

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

例如将kitten一字转成sitting:

  1. sitten (k→s)
  2. sittin (e→i)
  3. sitting (→g)

俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。

问题:找出字符串的编辑距离,即把一个字符串s1最少经过多少步操作变成编程字符串s2,操作有三种,添加一个字符,删除一个字符,修改一个字符

解析:

首先定义这样一个函数——edit(i, j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。

显然可以有如下动态规划公式:

  • if i == 0 且 j == 0,edit(i, j) = 0
  • if i == 0 且 j > 0,edit(i, j) = j
  • if i > 0 且j == 0,edit(i, j) = i
  • if i ≥ 1  且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + f(i, j) },当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i, j) = 1;否则,f(i, j) = 0。

举例:edit(4, 2)== min{ edit(4-1, 2) + 1, edit(4, 2-1) + 1, edit(4-1, 2-1) + f(4, 2) }

字符"abcd"到字符"ac"的编辑距离 ==   字符"abcd"到字符"a"的编辑距离+1, 字符"abc"到字符"ac"的编辑距离+1,字符"abc"到字符"a"的编辑距离+0或者1 (如果后面相等就为0,不相等为1)。

代码:

//定义两个字符
var s1="abcd",s2="ac";

function editDistance(s1,s2) {
//s1[i]表示第一个字符的第i个字符
    var len1=s1.length,len2=s2.length;
    var d=[];
    var i,j;
    /*初始化二维数组,以及定义
     if i == 0 且 j == 0,edit(i, j) = 0
     if i == 0 且 j > 0,edit(i, j) = j
     if i > 0 且j == 0,edit(i, j) = i
     */

    for(i = 0;i <= len1;i++){
        d[i]=[];
        d[i][0] = i;
    }
    for(j = 0;j <= len2;j++){
       d[0][j] = j;
    }
    for(i = 1;i <= len1;i++){
        for(j = 1;j <= len2;j++) {
            var cost = s1[i] == s2[j] ? 0 : 1;
            var deletion = d[i-1][j] + 1; //删除动作
            var insertion = d[i][j-1] + 1; //增加动作
            var substitution = d[i-1][j-1] + cost; //替换字符,如果相同cost=0;不同cost=1
            d[i][j] = Math.min(deletion,insertion,substitution);
        }
    }
    return d[len1][len2];
}
editDistance(s1,s2);//=>2 字符abcd和字符ac的编辑距离为2

  

时间: 2024-11-03 22:48:26

编辑距离及编辑距离算法(求字符的相似度) js版的相关文章

编辑距离及编辑距离算法 (一)摘自http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html

编辑距离及编辑距离算法 编辑距离概念描述: 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符. 例如将kitten一字转成sitting: sitten (k→s) sittin (e→i) sitting (→g) 俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念. 问题:找出字符串的编辑距离,即把一个字符串s1最少经过多少步操作变成编程字符串

编辑距离和编辑距离的动态规划算法(Java代码)

编辑距离概念描述: 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符. 例如将kitten一字转成sitting: sitten (k→s) sittin (e→i) sitting (→g) 俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念. 编辑距离的应用在信息检索.拼写纠错.机器翻译.命名实体抽取.同义词寻找等问题中有较多的应用 问题:找出

由LCS到编辑距离—动态规划入门—算法学习笔记

一切计算机问题,解决方法可以归结为两类:分治和封装.分治是减层,封装是加层. 动态规划问题同样可以用这种思路,分治. 它可以划分为多个子问题解决,那这样是不是用简单的递归就完成了?也许是的,但是这样会涉及太多的不便的操作.因为子问题有重叠! 针对这种子问题有重叠的情况的解决,就是提高效率的关键. 所以动态规划问题可以总结为:最优子结构和重叠子问题. 解决这个子问题的方式的关键就是:memoization,备忘录. 动态规划算法分以下4个步骤: 描述最优解的结构 递归定义最优解的值 按自底向上的方

[算法]求一段包含所有种类的字符子串

有一个字符串首尾相连(m个字符),有n种字符组成,求一段能使包含n种字符的子串,并使长短最短,时间复杂度要求O(n),空间复杂度O(1) #include <cstring>int foo(const char* str, int m, int n){ int hit[256], count = 0, begin = 0, end, len = m; memset(hit,0,256*4); int j; for(j = 0; j < m && count < n;

如何防范算法求逆

假如您不幸遇到对Win32应用环境有足够了解的对手,以至于您的软件最终还是被凶悍的调试器任意蹂躏.但是您还远没有被打败,如果反调试技术(Anti-Debug)作为软件保护的第一道防线已经失守,您的对手只不过是掌握了一大堆汇编代码而已,毕竟代码和算法之间还是有相当距离的,所以您还有第二道防线可守--抗分析.在这道防线里,您有很多办法可以限制破解者掌握您的加密算法,从而阻止注册机或者破解补丁的出现. 一.前言 软件保护的目的是只向合法用户提供完整的功能,所以软件保护必然要包括验证用户合法性的环节,而

poj2187 求平面最远点对,garham_scan算法求凸包

poj2187 求平面最远点对,garham_scan算法求凸包 Beauty Contest Time Limit: 3000MS   Memory Limit: 65536K Total Submissions: 29666   Accepted: 9180 Description Bessie, Farmer John's prize cow, has just won first place in a bovine beauty contest, earning the title 'M

EM算法求高斯混合模型参数估计——Python实现

EM算法一般表述: 当有部分数据缺失或者无法观察到时,EM算法提供了一个高效的迭代程序用来计算这些数据的最大似然估计.在每一步迭代分为两个步骤:期望(Expectation)步骤和最大化(Maximization)步骤,因此称为EM算法. 假设全部数据Z是由可观测到的样本X={X1, X2,--, Xn}和不可观测到的样本Z={Z1, Z2,--, Zn}组成的,则Y = X∪Z.EM算法通过搜寻使全部数据的似然函数Log(L(Z; h))的期望值最大来寻找极大似然估计,注意此处的h不是一个变量

算法 - 求两个自然数的最大公约数(C++)

placeholder算法 - 求两个自然数的最大公约数(C++),布布扣,bubuko.com

算法 - 求两个自然数的最小公倍数(C++)

placeholder算法 - 求两个自然数的最小公倍数(C++),布布扣,bubuko.com