白話 KMP 算法

時間 2019-11-05

標籤白話 kmp 算法简体版

原文原文鏈接

KMP 算法是計算機字符串匹配的常規算法。wiki
本篇文章藉助簡單示例，用通俗易懂的方式描述對 KMP 算法的理解。算法

匹配值表

對於 KMP 來講，「匹配值表」是很關鍵的。下面咱們從簡單示例出發描述匹配值表是如何產生的，以便理解。bash

如今咱們須要查找的字符串是「ABABABCA」。spa

在描述「匹配值表「以前，咱們須要簡短的介紹下前綴和後綴的概念:code

前綴：從 0 位，依次截取 1 到(len - 1)長度字符串的集合
後綴：從 len - 1 位反序，依次截取 1 到(len - 1)長度字符串的集合blog

字符串	前綴集合	後綴集合	前綴後綴交集
"A"	[]	[]	[]
"AB"	[A]	[B]	[]
"ABA"	[A,AB]	[A, BA]	[A]
"ABAB"	[A, AB, ABA]	[B, AB, BAB]	[AB]
"ABABA"	[A, AB, ABA, ABAB]	[A, BA, ABA, BABA]	[A, ABA]
"ABABAB"	[A, AB, ABA, ABAB, ABABA]	[B, AB, BAB, ABAB, BABAB]	[AB, ABAB]
"ABABABC"	[A, AB, ABA, ABAB, ABABA, ABABAB]	[C, BC, ABC, BABC, ABABC, BABABC]	[]
"ABABABCA"	[A, AB, ABA, ABAB, ABABA, ABABAB, ABABABC]	[A, CA, BCA, ABCA, BABCA, ABABCA, BABABCA]	[A]

從上表，若是耐心看，徹底能夠理解前綴和後綴的概念。ip

那麼「匹配值」又是指什麼呢？字符串

「匹配值」是指前綴和後綴集合，最長共有元素的長度，即交集中最長元素的長度get

那麼不難從上表中得出每一位(index)字符對應「匹配值(value)」:it

char: | A | B | A | B | A | B | C | A |
index:| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
value:| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 |
複製代碼

匹配值表的使用

咱們能夠根據匹配值表來加速查找匹配的過程。table

下面仍是舉例說明問題：

在字符串"BACBABABAABCBABABABCA"(text)中查找上文中的字符串"ABABABCA"(pattern)，下文中對兩個字符串的代稱爲括號以內的單詞。

從 text 第一位開始匹配，第一次匹配成功是這樣：

BACBABABAABCBABABABCA
 |
 ABABABCA
複製代碼

那麼開始日後匹配，發現 text 的第二位"C"和 pattern 的第二位"B"不匹配，因此當前部分匹配長度爲1(只有一個A)，而且根據上文的匹配值表獲得，當前的匹配值爲 0。

移動位數 = 已匹配字符長度 - 對應位的匹配值

即移動位數 = 1 - 0，因此咱們繼續向後移一位進行匹配。

再一次匹配成功的情形：

BACBABABAABCBABABABCA
    |||||
    ABABABCA
複製代碼

此時，text 中的"A"與 pattern 中的 "B" 不匹配，若是不按照算法，確定是繼續後移一位進行匹配。若是根據上述計算公式：

移動位數 = "ABABA".length - pattern[4]的匹配值
即 5 - 3 = 2

因此咱們能夠一次後移兩位：

BACBABABAABCBABABABCA
    xx|||
      ABABABCA
複製代碼

又不匹配了，此時應該後移
"ABA".length - pattern[2]的匹配值
即 3 - 1 = 2

繼續後移兩位：

BACBABABAABCBABABABCA
      xx|
        ABABABCA
複製代碼

繼續後移
"A".length - pattern[0]的匹配值
即 1 - 0 = 1

後移一位：

BACBABABAABCBABABABCA
        x||
         ABABABCA
複製代碼

繼續後移
"AB".length - pattern[1]的匹配值
即 2 - 0 = 2

後移兩位：

BACBABABAABCBABABABCA
         xx|
           ABABABCA
複製代碼

第一位都不匹配，咱們繼續日後移動直到匹配成功

BACBABABAABCBABABABCA
             ||||||||
             ABABABCA
複製代碼

移動幾回以後(step=1)，找到了最終匹配結果。

參考： jakeboxer.com/blog/2009/1…

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。