【重學數據結構與算法(JS)】字符串匹配算法(二)——KMP算法

時間 2020-01-21

標籤重學數據結構與算法(JS) 字符串匹配算法 kmp 欄目 JavaScript 简体版

原文原文鏈接

前言

在上一篇文章字符串匹配算法(一)——BF算法提到過，字符串匹配的思路是固定的：算法

將模式串和主串進行比較segmentfault
- 從前日後比較
- 從後往前比較
匹配時，比較主串和模式串的下一個位置
失配時,數組
- 在模式串中尋找一個合適的位置數據結構
  - 若是找到，從這個位置開始與主串當前失配位置進行比較
  - 若是未找到，從模式串的頭部與主串失配位置的下一個位置進行比較
- 在主串中找到一個合適的位置，從新與模式串進行比較

優化在於其中的步驟，而KMP算法，就是優化第3步失配時尋找模式串合適位置的操做。框架

算法介紹和分析

那麼如何尋找模式串中所謂合適的位置呢？能夠先來看個栗子：工具

......優化

上面是 BF 匹配過程當中從N_k到N_k+m的 m 次匹配過程，從中咱們能夠發現，從第 k 步到第 k+m 步時，指針 i 和 j 又回到了相同的位置，且第 k+m 步更具備匹配的可能性，因此咱們思考一下，是否是能夠由第 k 步直接跳到第 k+m 步呢？若是能夠，就能夠減小 m-1 次比較，大大提高效率。再進一步思考，若是將整個匹配過程再看做是重複地由N_k直接到N_k+m的推動，那麼每次重複時，模式串開始比較的位置就是咱們所要找的合適的位置。spa

如何尋找這些位置呢？咱們能夠把這個問題轉化爲求next數組的過程。3d

求 next 數組

咱們再仔細觀察下 N_k 和 N_k+m 兩個狀態指針

因爲 N_k 狀態下，模式串與主串具備徹底匹配的部分，且要達到 N_k+m 狀態所需移動到的位置信息也存在於匹配的部分，所以咱們能夠無視掉主串，只看模式串便可獲得next數組。

再認真觀察咱們還能發現，N_k 狀態不匹配時，N_k+m 狀態本質上是將模式串中的另一對 AB 和 主串 達成以前的已匹配狀態。因此求next數組的問題又能夠轉化爲當m位置不匹配時，求m位置以前的子串的最大相同先後綴的問題。

首先要創建一個規則，具備先後綴的字符串長度至少爲2，因此咱們定義若是長度爲0，則對應next數組值爲-1，若是長度爲1，值爲0。下面舉個栗子：

ABABABD

手工求這麼看其實沒什麼難度，本身多寫幾個串練一遍就會了。

代碼

學會如何手工求next數組以後，整個KMP算法的代碼如何寫呢？
還記得最開始提到要記住的一點嗎？匹配思路是同樣的，只是優化了失配後的操做。根據這一點，咱們能夠把BF算法的框架先搬過來：

這樣是否是能夠接下來去補全 getNext() 方法就能夠了呢？咱們來看一個特殊狀況：

當處在N_k+m狀態時，發現失配位置前的 AB 沒有最長公共先後綴，因而只能退回到BF算法的作法，也就是i++;j=0。可是這和咱們上面的框架代碼不符，須要進行改造：

每當 j = next[j] === -1 時，也須要進入第一個分支，使得 i++;j++(-1 + 1 = 0），變相達到效果。

獲得最終的框架代碼：

接下來就是進行對next數組的求解——完善 getNext()。這時候有的同窗可能就會想對上述手工求法進行代碼轉化，但是萬一模式串很長的話，那麼這個時間複雜度就會變得至關的高，因此須要採用迭代法，利用每次所得的結果來求下一個結果，從而拼湊出next數組。

咱們假設某一時刻有一個狀態S_k

此時咱們已經求完了next[j]的值，如何去求next[j+1]呢？仔細觀察狀態圖，發現：

若P_k === P_j，則 P_j+1 前有next[j] + 1 = 4個相同的先後綴 P₀P₁P_k-jP_k 和 P_j-kP_j-k+1P_j-1P_j，也就是 next[j+1] = next[j] +1 = k + 1

再來看一個狀態

一樣是求完了next[j]的值，

若P_k === P_j，對比 P_next[k] 是否等於 P_j；若是 P_nextⁿ[k] === P_j，則next[j+1] = P_nextⁿ[k] + 1 = k + 1

若是 P_nextⁿ[k] !== P_j呢？

能夠看到，

若是P_nextⁿ[k] !== P_j，則不斷地遞歸前綴索引 k = next[k] 直到回到前綴第一個位置，則表示沒有相同的先後綴，此時 j = -1，則 next[j+1] = P_nextⁿ[k] + 1 = k + 1 = 0

根據以上分析，咱們能夠補充完 getNext()

再優化一下寫法

至此，一個完整的KMP算法就寫好了。

思考是否還有優化的空間

咱們來看一個特殊的例子：

這是一個前綴相同的一個模式串，且咱們已經求得了next數組，接下來咱們模擬一下上面寫好的程序進行的操做：

j = 5，needle[5] !== haystack[i]；next[j] = 4，j = next[j];
j = 4，needle[4] !== haystack[i]；next[j] = 3，j = next[j];
j = 3，needle[3] !== haystack[i]；next[j] = 2，j = next[j];
j = 2，needle[2] !== haystack[i]；next[j] = 1，j = next[j];
j = 1，needle[1] !== haystack[i]；next[j] = 0，j = next[j];
j = 0，needle[0] !== haystack[i]；next[j] = -1，j = next[j];
j = -1, j++;i++;

咱們發現因爲前綴都是相等的，當第1步發現失配時，直接 j = -1 就能夠了，也就是 next[5] = -1 便可。因此，優化點實際上是體如今對next數組的優化，咱們稱之爲nextVal數組

求nextVal數組

如何求nextVal數組呢？咱們仍是以上面的特殊狀況爲例，看兩個狀態：

此時咱們已經求完了nextVal[j]的值，仔細觀察狀態圖，發現：

根據求next數組的過程,next[j + 1] = k + 1
- 若P_j+1 !== P_{next[j + 1]}，在P_{next[j + 1]}發生失配時，只要跳到P_j+1就有可能解決失配問題，則此時的 nextVal[j + 1] = next[j + 1]便可
- 若P_j+1 === P_{next[j + 1]}，在P_{next[j + 1]}發生失配時，跳到P_j+1就並不能解決失配問題，則此時應該繼續回溯nextVal的next[j + 1]的位置上（因爲是迭代求法，此時nextVal[next[j + 1]]上的值必定是經過nextVal[next²[j + 1]]求得了），即 nextVal[j + 1] = nextVal[next[j + 1]]