前言以前HanLP使用“最短编辑距离”来做推荐器,效果有待提高,主要缺点是根据拼音序列的编辑距离推荐的时候,同音字交错很常见,而编辑距离却不那么大。这时我就在寻求一种补充的评分算法,去评判两个句子在拼音这一维度上的相似程度。区别最长公共子串(Longest Common Substring)指的是两个字符串中的最长公共子串,要求子串一定连续。最长公共子序列(Longest Common Substring)指的是两个字符串中的最长公共子串,不要求子串连续。求解两者的求解与编辑距离一样,都是动态规划,用空间换...
继续阅读:码农场 » 最长公共子串、最长公共子序列的Java实现与NLP应用
时间: 2024-11-05 11:56:17