fuzzywuzzy：计算两个字符串之间的相似度

楔子

fuzzywuzzy是用来计算两个字符串之间的相似度的，它是依据Levenshtein Distance算法来进行计算的

Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越高。

fuzz

from fuzzywuzzy import fuzz

# 调用fuzz.ratio即可计算两个字符串之间的相似度
print(fuzz.ratio("古明地觉", "古明地恋"))  # 75

# 我们看到ratio是完全匹配的，它把字符串的长度也考虑在内了
print(fuzz.ratio("古明地觉", "古明地觉aa"))  # 80

# partial_ratio是非完全匹配，如果一方结束了，那么剩下的就不考虑了
print(fuzz.partial_ratio("古明地觉", "古明地觉也叫小五萝莉"))  # 100

# token_sort_ratio表示忽略顺序匹配，但前提是多个词，以空格进行分隔。所以明显是针对英文的
print(fuzz.ratio("古 明 地 觉", "古 明 地 觉"[:: -1]))  # 25
print(fuzz.token_sort_ratio("古 明 地 觉", "古 明 地 觉"[:: -1]))  # 100

# token_set_ratio表示去重匹配，同样：前提是多个词，以空格进行分隔
print(fuzz.ratio("a a a he", "a he"))  # 67
print(fuzz.token_set_ratio("a a a he", "a he"))  # 100

process

from fuzzywuzzy import process

words = ["hello python", "hello java", "hello golang", "hello php"]
# 会自动和words里面每一个元素进行比较，然后按照相似度从高到低排列
print(process.extract("hello thon", words))
# [(‘hello python‘, 91), (‘hello php‘, 74), (‘hello golang‘, 73), (‘hello java‘, 64)]

# 还可以传入一个limit参数，表示只返回前limit个，默认为5
print(process.extract("hello thon", words, limit=2))  # [(‘hello python‘, 91), (‘hello php‘, 74)]

# 返回分数最高的
print(process.extractOne("hello thon", words))  # (‘hello python‘, 91)

另外使用fuzzywuzzy这个模块的时候，会弹出一个警告

"""
UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning
"""

提示我们可以通过pip?install?python-Levenshtein得到解决，python-Levenshtein是一个用于加速字符串匹配的库，可提供4到10倍的加速。另外这个库在Windows上通过pip安装会失败，如果你本地没有vscode的话，不过我们可以去https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站上面下载。当然即使没有这个库也是可以的，没有的话fuzzywuzzy底层会使用python的标准库difflib进行匹配，只是会弹出警告罢了。

原文地址：https://www.cnblogs.com/traditional/p/12554215.html

时间： 2025-01-13 20:18:16

fuzzywuzzy：计算两个字符串之间的相似度

楔子

fuzz

process

fuzzywuzzy：计算两个字符串之间的相似度的相关文章

java计算两个日期之间相隔的天数

计算两个字符串的相似度---动态规划实现

计算两个日期之间相差几天（Date类型与String类型互相转换）

js实现的计算两个时间之间的时间差

用VBA计算两个日期之间的工作日(去掉周末两天)

PHP 计算两个时间戳之间相差的时间

计算两个字符串最大公有子串

计算两个时间戳之间相差的时间

Java 根据给定的日期，计算两个日期之间的时间差