Levenshein distance最小编辑距离算法实现

Levenshein distance，中文名为最小编辑距离，其目的是找出两个字符串之间需要改动多少个字符后变成一致。该算法使用了动态规划的算法策略，该问题具备最优子结构，最小编辑距离包含子最小编辑距离，有下列的公式。

其中d[i-1,j]+1代表字符串s2插入一个字母，d[i,j-1]+1代表字符串s1删除一个字母，然后当xi=yj时，不需要代价，所以和上一步d[i-1,j-1]代价相同，否则+1，接着d[i,j]是以上三者中最小的一项。

算法实现（Python）：

假设两个字符串分别为s1，s2，其长度分别为m，n，首先申请一个（m+1）*（n+1）大小的矩阵，然后将第一行和第一列初始化，d[i,0]=i，d[0,j]=j，接着就按照公式求出矩阵中其他元素，结束后，两个字符串之间的编辑距离就是d[n,m]的值，代码如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
__author__ = 'xanxus'
s1, s2 = raw_input('String 1:'), raw_input('String 2:')
m, n = len(s1), len(s2)
colsize, matrix = m + 1, []
for i in range((m + 1) * (n + 1)):
    matrix.append(0)
for i in range(colsize):
    matrix[i] = i
for i in range(n + 1):
    matrix[i * colsize] = i
for i in range(n + 1)[1:n + 1]:
    for j in range(m + 1)[1:m + 1]:
        cost = 0
        if s1[j - 1] == s2[i - 1]:
            cost = 0
        else:
            cost = 1
        minValue = matrix[(i - 1) * colsize + j] + 1
        if minValue > matrix[i * colsize + j - 1] + 1:
            minValue = matrix[i * colsize + j - 1] + 1
        if minValue > matrix[(i - 1) * colsize + j - 1] + cost:
            minValue = matrix[(i - 1) * colsize + j - 1] + cost
        matrix[i * colsize + j] = minValue
print matrix[n * colsize + m]

Levenshein distance最小编辑距离算法实现,布布扣,bubuko.com

时间： 2024-11-06 04:39:14

Levenshein distance最小编辑距离算法实现

Levenshein distance最小编辑距离算法实现的相关文章

C#实现Levenshtein distance最小编辑距离算法

java文本相似度计算(Levenshtein Distance算法(中文翻译：编辑距离算法))----代码和详解

字符串相似度算法（编辑距离算法 Levenshtein Distance）（转）

Minimum edit distance（levenshtein distance）(最小编辑距离)初探

Levenshtein distance 编辑距离算法

计算两组标签相似度算法——levenshtein distance 编辑距离算法

最小编辑距离（Minimum edit distance）

通俗解析莱文斯坦距离(Levenshtein Distance)计算原理(最小编辑距离)

编辑距离算法（二）摘自网络