編碼:KR字符串匹配,一個簡單到領導都看得懂的算法

常懷感恩,生活或許就不會到處深淵。 算法

這幾天看了《柔性字符串匹配》,以爲頗有意思。書是好書,只是這個腦子是否是豬腦就不知道了,因而秉着知之爲知之,不知爲不知的精神,我準備再次去請教一下個人領導,在一個月黑風高的夜晚,我給領導發了個消息,領導這麼回覆了我。 網絡

圖片

01函數

工具

**KR算法
**編碼

話說回來,咱們今天要說的這個字符串匹配算法比以前講過的kmp,horspool,sunday簡單的多的字符串匹配算法,咱們知道暴力匹配是經過對兩個字符串進行每個位置字符對比來查找匹配的上的子字符串。今天說的這個KR算法的思想和暴力匹配有些許相似,不過在實現上作了一些改進,這也是爲何說這個算法很是容易理解的緣由,由於思路很是直接。spa

    在計算機科學中,Rabin–Karp算法或Karp–Rabin算法(英文:Rabin–Karp algorithm或Karp–Rabin algorithm),是一種由理查德·卡普與邁克爾·拉賓於1987年提出的、使用散列函數以在文本中搜尋單個模式串的字符串搜索算法單次匹配。該算法先使用旋轉哈希以快速篩出沒法與給定串匹配的文本位置,此後對剩餘位置可否成功匹配進行檢驗。此算法可推廣到用於在文本搜尋單個模式串的全部匹配或在文本中搜尋多個模式串的匹配。設計

維基百科3d

按照慣例,對於被匹配的字符串稱之爲徹底字符串,用於查找匹配的字符串稱爲爲模式字符串。KR算法是經過計算散列值的方式從徹底字符串中進行模式字符串的匹配,也就是咱們常常說的哈希值。code

KR從徹底字符串的首位開始,計算和模式字符串長度一致的子字符串的哈希值,再經過哈希值與模式字符串計算獲得的哈希值進行比較,若是哈希值不存在則字符串必定不相等。若是哈希值相等,兩個字符串可能相等,這個時候就須要經過遍歷對比兩個字符串的每一個字符,若是全部順序字符都相等的話,則兩個字符串相等。遞歸

爲何哈希值相等,可是值不必定相等,這裏涉及到一個概念就是哈希碰撞,瞭解的童鞋直接跳過,不瞭解的童鞋聽我舉個例子,一年有365天,若是這個時候一個房間裏有366我的,那麼是否是必定會有兩我的的生日的同一天,雖然生日相同,可是不是同一我的,其實哈希能夠當作是固定長度的函數,而實際長度大於這個固定長度,因此值會重合,固然這個例子不是特別的準確,感興趣的童鞋能夠維基或者百度更準確的定義。

所以當兩個長度同樣的字符串計算出的哈希值一致的時候,還須要比對字符串對應位置上的全部字符,所以能夠很簡單的得出KR算法的實現代碼。

func KarpRabinMatch(allString, modeString string) int {
  //計算模式字符串的哈希值
  hashMode := hash(modeString)
  //下標匹配結束
  end:= len(allString)-len(modeString)+1
  for i := 0; i < end ; i++ {
    //計算子字符串的哈希值
    hashKey := hash(allString[i : i+len(modeString)+1])
    if hashMode == hashKey {
      for j := 0; j < len(modeString); j++ {
        if allString[i+j] != modeString[j] {
          break
        }
      }
      return i
    }
  }
  return -1
}

能夠看到代碼中對模式字符串哈希值(hashMode)的計算只會處理一次,在循環中,從徹底字符串的第一個字符開始的子字符串,計算對應哈希值,判斷該哈希值與hashMode比較,若是不相等日後一位計算下一個子字符串的哈希值。

只要哈希值相等的狀況下才會對比模式字符串的每個字符,因此選擇一個好的哈希函數,會使比較模式字符串每一個字符的操做變得很是少,所以這個算法的時間複雜度在計算子字符串的哈希值上。若是子字符串的每一個字符都要參與計算,徹底字符串的全部字符須要計算長度n遍,每遍須要計算模式字符串的長度m個字符,所以時間複雜度爲O(mn)。

02

旋轉哈希

如上所說,若是每一次都要對子字符串的每一個字符都進行計算,那麼時間複雜度會達到O(mn),若是想要下降時間複雜度(提速),須要找到一種哈希方式,減小每次哈希計算的次數。因而針對這個字符串匹配算法,設計了一種簡單的可是不優秀的哈希函數計算方式:旋轉哈希。

    旋轉哈希(也稱爲滾動哈希、遞歸哈希、滾動校驗和或滑動哈希)是一種哈希函數,輸入的內容在一個窗口中進行移動哈希。    

    少數哈希函數容許快速計算滾動哈希值 — 只給出舊的哈希值,新的哈希值被快速計算出來,舊的值從窗口中移除,新的值添加到窗口中 — 相似於移動平均函數的計算方式,比其餘低通濾波器更快。

維基百科

旋轉哈希的想法很簡單,有點相似窗口移動,每次向右移動窗口,把退出窗口的最左邊字符的哈希值減掉,而且加上新加入窗口的最右邊字符的哈希值,這樣就達到了每次經過常數時間計算出哈希值。

以下所示,子字符串ABB的哈希值,hash1 = A + B + B,當窗口移動到BBE這個子字符串的時候,子字符串BBE的哈希值hash3 = hash1 - A + E便可。

圖片

可是按照加法的這種方式去實現旋轉哈希,產生哈希碰撞的機率很是高,好比說ABB和BBA的哈希值是同樣的。這樣就會致使不同的字符串的哈希值相等,須要比較每個字符,時間複雜度變高。

03

Rabin指紋

咱們已經肯定經過旋轉哈希來實現KR算法,那麼有什麼更好的旋轉哈希的計算方式可以產生更少的碰撞。這裏要說的就是邁克爾·拉賓提出的Rabin指紋。

圖片

維基百科

Rabin指紋是經過程序解釋多項式,經過當前字符串的多項式值,在窗口移動的時候,校驗計算新的子字符串的結果值。它能夠應用在一些分塊數據的校驗上,好比說網絡傳輸包的校驗和等。

04

多項式散列

計算哈希函數,若是模式字符串長度較長,經過多項式進行計算,可能會出現哈希值超過機器支持長度的狀況,因此這邊須要進行取餘,簡單來講就是在保證散列儘可能平均分佈的同時,不讓長度溢出。

首先須要瞭解求餘的特性:同餘定理,在百度百科或者維基百科均可以找到對應的內容,其中有一條在咱們的計算中會使用到,也就是:

同餘式相乘:若a≡b(mod m),c≡d(mod m),則ac≡bd(mod m)

假設字符集大小爲x,用質數y進行取模操做,用多項式散列進行哈希計算的表達式爲:

圖片

即假設當前字符串字符集大小爲256,能夠設置x = 256,質數 y = 101 來計算(固然設置其餘數值也能夠),好比說徹底字符串爲abcd,而匹配字符串長度爲3。

首先計算子字符串abc的哈希值(字母經過ASCI碼計算),即

圖片

而後字符串窗口移動,計算bcde的哈希值,即

圖片

能夠發現上面的兩個哈希公式是減掉第一位的a的哈希值,而後再加上最後一位a的哈希值,經過旋轉哈希的方式來實現常數時間內哈希值的計算。

對比上面兩個公式,會發現 hash(abcd)中a的哈希值和下面計算減掉a的哈希值相差一個 %101,根據上面的同餘式相乘公式能夠獲得,結果是一致的。

圖片

圖片

05

寫在最後

KR算法雖然在單字符串的匹配中,算不上優秀的算法,可是若是在字符串中查找N個對應的模式,即多模式搜索中,KR算法的變種AC自動機的效率很是高。

本文涉及到的代碼比較少,不少比較嚴謹的文字也是引用維基百科上面的解釋,只是用了一些圖片來詮釋處理的過程。全文旨在說明一種思路和計算方式(旋轉哈希),也許在以後工做中的某些場景會有所應用。

【往期回顧】

編碼:震驚,讓領導差點腦溢血的字符串匹配算法KMP

編碼:horspool字符串匹配,折磨先生又來了

編碼:sunday字符串匹配,「愉快」的一天又開始了

編碼:Lumuto劃分,實現快速選擇

編碼:前綴樹工具

【參考資料】

旋轉哈希

https://zh.wikipedia.org/wiki...

Rabin–Karp算法

https://zh.wikipedia.org/wiki...

Rabin指紋

https://zh.wikipedia.org/wiki...

圖片

相關文章
相關標籤/搜索