字符串相似度计算的方法,使用SQL以及C#实现,本文非原创摘自网络(.NET SQL技术交流群入群206656202需注明博客园)

 1 CREATE   function get_semblance_By_2words
2 (
3 @word1 varchar(50),
4 @word2 varchar(50)
5 )
6 returns nvarchar(4000)
7 as
8 begin
9 declare @re int
10 declare @maxLenth int
11 declare @i int,@l int
12 declare @tb1 table(child varchar(50))
13 declare @tb2 table(child varchar(50))
14 set @i=1
15 set @l=2
16 set @maxLenth=len(@word1)
17 if len(@word1)<len(@word2)
18 begin
19 set @maxLenth=len(@word2)
20 end
21 while @l<=len(@word1)
22 begin
23 while @i<len(@word1)-1
24 begin
25 insert @tb1 (child) values( SUBSTRING(@word1,@i,@l) )
26 set @i=@i+1
27 end
28 set @i=1
29 set @l=@l+1
30 end
31 set @i=1
32 set @l=2
33 while @l<=len(@word2)
34 begin
35 while @i<len(@word2)-1
36 begin
37 insert @tb2 (child) values( SUBSTRING(@word2,@i,@l) )
38 set @i=@i+1
39 end
40 set @i=1
41 set @l=@l+1
42 end
43 select @re=isnull(max( len(a.child)*100/ @maxLenth ) ,0) from @tb1 a, @tb2 b where a.child=b.child
44 return @re
45 end
46 GO
47
48 --测试
49 --select dbo.get_semblance_By_2words(‘我是谁‘,‘我是谁啊‘)
50 --75
51 --相似度

SQL

 1 #region 计算字符串相似度
2 /// <summary>
3 /// 计算字符串相似度
4 /// </summary>
5 /// <param name="str1">字符串1</param>
6 /// <param name="str2">字符串2</param>
7 /// <returns>相似度</returns>
8 public static float Levenshtein(string str1, string str2)
9 {
10 //计算两个字符串的长度。
11 int len1 = str1.Length;
12 int len2 = str2.Length;
13 //比字符长度大一个空间
14 int[,] dif = new int[len1 + 1, len2 + 1];
15 //赋初值,步骤B。
16 for (int a = 0; a <= len1; a++)
17 {
18 dif[a, 0] = a;
19 }
20 for (int a = 0; a <= len2; a++)
21 {
22 dif[0, a] = a;
23 }
24 //计算两个字符是否一样,计算左上的值
25 int temp;
26 for (int i = 1; i <= len1; i++)
27 {
28 for (int j = 1; j <= len2; j++)
29 {
30 if (str1.Substring(i - 1, 1) == str2.Substring(j - 1, 1))
31 {
32 temp = 0;
33 }
34 else
35 {
36 temp = 1;
37 }
38 //取三个值中最小的
39 dif[i, j] = Min(dif[i - 1, j - 1] + temp, dif[i, j - 1] + 1, dif[i - 1, j] + 1);
40 }
41 }
42 return 1 - (float)dif[len1, len2] / Math.Max(str1.Length, str2.Length);
43 }
44 #endregion
45
46 //比较3个数字得到最小值
47 private static int Min(int i, int j, int k)
48 {
49 return i < j ? (i < k ? i : k) : (j < k ? j : k);
50 }

C#

字符串相似度计算的方法,使用SQL以及C#实现,本文非原创摘自网络(.NET
SQL技术交流群入群206656202需注明博客园)

时间: 2024-10-05 04:27:30

字符串相似度计算的方法,使用SQL以及C#实现,本文非原创摘自网络(.NET SQL技术交流群入群206656202需注明博客园)的相关文章

jQuery跨域请求,跨域Post提交数据的方法(.net/SQL技术交流群206656202 入群需注明博客园) - 思...

jQuery跨域请求,跨域Post提交数据的方法(.net/SQL技术交流群206656202 入群需注明博客园) - 思... 无聊透顶,网上看看技术文章吸收下精华,无意中发现很多开发人员在跨域请求方面很是疑惑,本人整理了一下曾经写过的代码供苦苦寻找解决方案的IT人一点灵感,如果认为自己是高手呢那么您就可以潇洒的飘过了~~废话不说了免得招人烦~~ 一.get方式实现跨域请求 这里我使用jQuery.getJSON()函数实现      a站点 http://bj.xxxx.com.aspx 请

C# 读写ini配置文件(.net/SQL技术交流群206656202 入群需注明博客园)

using System; using System.IO; using System.Reflection; using System.Runtime.InteropServices; using System.Text; namespace Souxuexiao.Cache { public static class IniConfig { static string ConfigurationFilePath; static IniConfig() { var Ass = Assembly

字符串相似度计算----编辑距离

题目描述: 要求两字符串有差异的字符个数.例如: aaaaabaaaaa aaaaacaabaa 这两个字符串,最大公共字串长度是5,但它们只有两个字符不同,函数输出值应为2. 如果是: aaabbbcccddd aaaeeeddd 函数的输出值应该是6. 比较形象地形容一下,把两个字符串排成上下两行,每个字符串都可以在任何位置插入空格以便上下对齐,每个列上至少有一个字符来自这两个字符串.当对齐程度最高的时候,没有对上的列的数即为函数输出值. aaabbbcccddd aaaeeeddd 最优对

C#和SQL实现的字符串相似度计算代码分享

http://www.jb51.net/article/55941.htm C#实现: 复制代码 代码如下: #region 计算字符串相似度        /// <summary>         /// 计算字符串相似度         /// </summary>         /// <param name="str1">字符串1</param>         /// <param name="str2&qu

文本相似度计算基本方法小结

在计算文本相似项发现方面,有以下一些可参考的方法.这些概念和方法会帮助我们开拓思路. 相似度计算方面 Jaccard相似度:集合之间的Jaccard相似度等于交集大小与并集大小的比例.适合的应用包括文档文本相似度以及顾客购物习惯的相似度计算等. Shingling:k-shingle是指文档中连续出现的任意k个字符.如果将文档表示成其k-shingle集合,那么就可以基于集合之间的 Jaccard相似度来计算文档之间的文本相似度.有时,将shingle哈希成更短的位串非常有用,可以基于这些哈希值

Python 连接MongoDB并比较两个字符串相似度的简单示例

本文介绍一个示例:使用 pymongo 连接 MongoDB,查询MongoDB中的 字符串 记录,并比较字符串之间的相似度. 一,Python连接MongoDB 大致步骤:创建MongoClient---> 获取 DataBase --->获取Collection,代码如下: client = MongoClient(host="127.0.0.1", port=10001) db = client['database_name'] db.authenticate(nam

图像相似度计算之哈希值方法OpenCV实现

http://blog.csdn.net/fengbingchun/article/details/42153261 图像相似度计算之哈希值方法OpenCV实现 2014-12-25 21:27 2959人阅读 评论(0) 收藏 举报  分类: OpenCV(72)  Image Processing(18)  版权声明:本文为博主原创文章,未经博主允许不得转载. 感知哈希算法(perceptual hash algorithm),它的作用是对每张图像生成一个“指纹”(fingerprint)字

【java算法】---余弦相似度计算字符串相似率

余弦相似度计算字符串相似率 功能需求:最近在做通过爬虫技术去爬取各大相关网站的新闻,储存到公司数据中.这里面就有一个技术点,就是如何保证你已爬取的新闻,再有相似的新闻 或者一样的新闻,那就不存储到数据库中.(因为有网站会去引用其它网站新闻,或者把其它网站新闻拿过来稍微改下内容就发布到自己网站中). 解析方案:最终就是采用余弦相似度算法,来计算两个新闻正文的相似度.现在自己写一篇博客总结下. 一.理论知识 先推荐一篇博客,对于余弦相似度算法的理论讲的比较清晰,我们也是按照这个方式来计算相似度的.网

Shell脚本中计算字符串长度的5种方法及从文本获取某一行

有时在Linux操作系统中需要计算某个字符串的长度,通过查询资料整理了下目前Shell中获取字符串的长度的多种方法,在这里分享给大家,方法如下: 方法1: 使用wc -L命令wc -L可以获取到当前行的长度,因此对于单独行的字符串可以用这个简单的方法获取,另外wc -l则是获取当前字符串内容的行数. 代码如下: echo "abc" |wc -L 方法2: expr length string使用expr length可以获取string的长度 方法3: awk获取域的个数,但是如果大