KMP 算法是計算機字符串匹配的常規算法。wiki
本篇文章藉助簡單示例,用通俗易懂的方式描述對 KMP 算法的理解。算法
對於 KMP 來講,「匹配值表」是很關鍵的。下面咱們從簡單示例出發描述匹配值表是如何產生的,以便理解。bash
如今 咱們須要查找的字符串是 「ABABABCA」。spa
在描述「匹配值表「以前,咱們須要簡短的介紹下前綴和後綴的概念:code
前綴:從 0 位,依次截取 1 到(len - 1)長度字符串的集合
後綴:從 len - 1 位反序,依次截取 1 到(len - 1)長度字符串的集合blog
字符串 | 前綴集合 | 後綴集合 | 前綴後綴交集 |
---|---|---|---|
"A" | [] | [] | [] |
"AB" | [A] | [B] | [] |
"ABA" | [A,AB] | [A, BA] | [A] |
"ABAB" | [A, AB, ABA] | [B, AB, BAB] | [AB] |
"ABABA" | [A, AB, ABA, ABAB] | [A, BA, ABA, BABA] | [A, ABA] |
"ABABAB" | [A, AB, ABA, ABAB, ABABA] | [B, AB, BAB, ABAB, BABAB] | [AB, ABAB] |
"ABABABC" | [A, AB, ABA, ABAB, ABABA, ABABAB] | [C, BC, ABC, BABC, ABABC, BABABC] | [] |
"ABABABCA" | [A, AB, ABA, ABAB, ABABA, ABABAB, ABABABC] | [A, CA, BCA, ABCA, BABCA, ABABCA, BABABCA] | [A] |
從上表,若是耐心看,徹底能夠理解前綴和後綴的概念。ip
那麼「匹配值」又是指什麼呢?字符串
「匹配值」是指前綴和後綴集合,最長共有元素的長度,即交集中最長元素的長度get
那麼不難從上表中得出每一位(index)字符對應「匹配值(value)」:it
char: | A | B | A | B | A | B | C | A |
index:| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
value:| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 |
複製代碼
咱們能夠根據匹配值表來加速查找匹配的過程。table
下面仍是舉例說明問題:
在字符串"BACBABABAABCBABABABCA"(text)中查找上文中的字符串"ABABABCA"(pattern), 下文中對兩個字符串的代稱爲括號以內的單詞。
從 text 第一位開始匹配,第一次匹配成功是這樣:
BACBABABAABCBABABABCA
|
ABABABCA
複製代碼
那麼開始日後匹配,發現 text 的第二位"C"和 pattern 的第二位"B"不匹配, 因此當前部分匹配長度爲1(只有一個A),而且根據上文的匹配值表獲得,當前的匹配值爲 0。
移動位數 = 已匹配字符長度 - 對應位的匹配值
即 移動位數 = 1 - 0,因此咱們繼續向後移一位進行匹配。
再一次匹配成功的情形:
BACBABABAABCBABABABCA
|||||
ABABABCA
複製代碼
此時,text 中的"A"與 pattern 中的 "B" 不匹配,若是不按照算法,確定是繼續後移一位進行匹配。 若是根據上述計算公式:
移動位數 = "ABABA".length - pattern[4]的匹配值
即 5 - 3 = 2
因此咱們能夠一次後移兩位:
BACBABABAABCBABABABCA
xx|||
ABABABCA
複製代碼
又不匹配了,此時應該後移
"ABA".length - pattern[2]的匹配值
即 3 - 1 = 2
繼續後移兩位:
BACBABABAABCBABABABCA
xx|
ABABABCA
複製代碼
繼續後移
"A".length - pattern[0]的匹配值
即 1 - 0 = 1
後移一位:
BACBABABAABCBABABABCA
x||
ABABABCA
複製代碼
繼續後移
"AB".length - pattern[1]的匹配值
即 2 - 0 = 2
後移兩位:
BACBABABAABCBABABABCA
xx|
ABABABCA
複製代碼
第一位都不匹配,咱們繼續日後移動直到匹配成功
BACBABABAABCBABABABCA
||||||||
ABABABCA
複製代碼
移動幾回以後(step=1),找到了最終匹配結果。