字符串類似度計算的方法,使用SQL以及C#實現,本文非原創摘自網絡(.NET SQL技術交流羣入羣206656202需註明博客園)


 1 CREATE   function get_semblance_By_2words 
 2 ( 
 3 @word1 varchar(50), 
 4 @word2 varchar(50)   
 5 ) 
 6 returns nvarchar(4000) 
 7 as 
 8 begin 
 9 declare @re int 
10 declare @maxLenth int 
11 declare @i int,@l int 
12 declare @tb1 table(child varchar(50)) 
13 declare @tb2 table(child varchar(50)) 
14 set @i=1 
15 set @l=2 
16 set @maxLenth=len(@word1) 
17 if len(@word1)<len(@word2)  
18 begin 
19 set @maxLenth=len(@word2) 
20 end 
21 while @l<=len(@word1)  
22 begin 
23 while @i<len(@word1)-1 
24 begin 
25 insert @tb1 (child) values( SUBSTRING(@word1,@i,@l) )  
26 set @i=@i+1 
27 end 
28 set @i=1 
29 set @l=@l+1 
30 end 
31 set @i=1 
32 set @l=2 
33 while @l<=len(@word2)  
34 begin 
35 while @i<len(@word2)-1 
36 begin 
37 insert @tb2 (child) values( SUBSTRING(@word2,@i,@l) )  
38 set @i=@i+1 
39 end 
40 set @i=1 
41 set @l=@l+1 
42 end   
43 select @re=isnull(max( len(a.child)*100/  @maxLenth ) ,0) from @tb1 a, @tb2 b where a.child=b.child 
44 return @re 
45 end 
46 GO 
47   
48 --測試 
49 --select dbo.get_semblance_By_2words('我是誰','我是誰啊')  
50 --75 
51 --類似度 
SQL

 

 
  
 1 #region 計算字符串類似度
 2         /// <summary>
 3         /// 計算字符串類似度
 4         /// </summary>
 5         /// <param name="str1">字符串1</param>
 6         /// <param name="str2">字符串2</param>
 7         /// <returns>類似度</returns>
 8         public static float Levenshtein(string str1, string str2)
 9         {
10             //計算兩個字符串的長度。  
11             int len1 = str1.Length;
12             int len2 = str2.Length;
13             //比字符長度大一個空間  
14             int[,] dif = new int[len1 + 1, len2 + 1];
15             //賦初值,步驟B。  
16             for (int a = 0; a <= len1; a++)
17             {
18                 dif[a, 0] = a;
19             }
20             for (int a = 0; a <= len2; a++)
21             {
22                 dif[0, a] = a;
23             }
24             //計算兩個字符是否同樣,計算左上的值  
25             int temp;
26             for (int i = 1; i <= len1; i++)
27             {
28                 for (int j = 1; j <= len2; j++)
29                 {
30                     if (str1.Substring(i - 1, 1) == str2.Substring(j - 1, 1))
31                     {
32                         temp = 0;
33                     }
34                     else
35                     {
36                         temp = 1;
37                     }
38                     //取三個值中最小的  
39                     dif[i, j] = Min(dif[i - 1, j - 1] + temp, dif[i, j - 1] + 1, dif[i - 1, j] + 1);
40                 }
41             }
42             return 1 - (float)dif[len1, len2] / Math.Max(str1.Length, str2.Length);
43         }
44         #endregion
45 
46         //比較3個數字獲得最小值  
47         private static int Min(int i, int j, int k)
48         {
49             return i < j ? (i < k ? i : k) : (j < k ? j : k);
50         } 
C#
相關文章
相關標籤/搜索