計算機基礎數據結構講解第十一篇-字符串模式匹配KMP算法第一講

時間 2020-09-25

標籤計算機基礎數據結構講解第十一篇字符串模式匹配 kmp 算法第一简体版

原文原文鏈接

本篇講解串的有關知識，串就是字符串，很常見。和線性表相似，但在基本操做上，一般以子串爲操做對象。重點是字符串的模式匹配算法，就是在主串中找到子串。最經典的是KMP匹配算法的原理，要知道算法的原理及next數組的推理過程，求next數組能夠先計算出部分匹配值表而後再變形，根據公式求解.改進方法是用nextval數組。算法

一：簡單的模式匹配算法

子串的定位操做一般稱爲串的模式匹配，求子串在主串中的位置，最簡單的定長存儲，是一種暴力的匹配算法。代碼以下：數組

int Index(thisString S,thisSting T){
  int i=1;j=1;
  while(i<=S.length&&j<=T.length){
    if(S.ch[i]==T.ch[j]){
      i++;j++;
    }
    else{
      i=i-j+2;
      j=1;
    }
  }
  if(j>T.length)
    return i-T.length;
  return 0;
}

暴力匹配的最壞時間複雜度是O(nm)，其中n和m爲主串和模式串的長度，但這種匹配算法就會將主串前面匹配過的忽略掉，每次匹配失敗都是模式後移一位再從頭開始比較，比較重複，效率比較低。改進的算法思路是若是已匹配相等的前綴序列中有某個後綴正好是模式的前綴，那麼就能夠將模式向後滑動到與這些字符對齊的位置，只針對模式子串進行操做，主串指針無需回溯，繼續進行比較，這種算法僅與模式串自己結構有關，與主串無關。這種算法也就是KMP算法，下面進行詳細介紹這個算法。函數

二：字符串的前綴，後綴和部分匹配值

1.前綴

前綴指除了最後一個字符之外，字符串的全部頭部子串。this

2.後綴

後綴指除了第一個字符之外，字符串的全部尾部子串。指針

3.部分匹配值

部分匹配值爲字符串的前綴和後綴的最大相等公共先後綴長度。
好比在'ababa'中，'a'的最大相等公共先後綴長度爲0，'ab'最大相等公共先後綴長度爲0，依次可得全部子串的最大相等公共先後綴長度，而後就獲得部分匹配值爲00123，可是部分匹配值有什麼做用呢，有一個公式是當某個字符匹配失敗時。
能夠根據移動位數=已匹配的字符數-對應的部分匹配值(指的是已匹配的字符組的最後一個字符的部分匹配值)。和就至關於把已匹配的字符數的最大相等公共前綴移到後綴的位置。
這個過程珠串始終沒有回退，故KMP算法能夠在O(n+m)的時間數量級上完成串的模式匹配操做，大大提升了匹配效率。
當某趟發生失配時，對應的部分匹配值爲0，這次移動的位數最大，直接將子串首字符移動到主串i位置進行下一趟比較。不然有最大相等公共先後綴長度，移動後從i位置進行比較。不管部分匹配值是否爲0，都是從主串的第i個位置進行比較。code

三：KMP算法具體實現過程

由上可知，KMP算法的核心就是匹配失敗後移動子串的位置，能夠認爲是子串右移位數進行下一次比較。
右移位數就是把已匹配的字符數的前綴移動到後綴的位置，也就是
右移位數=已匹配的字符數-對應的部分匹配值(指的是已匹配的字符組的最後一個字符的部分匹配值)
即Move = (j-1) - PM[j-1]
每次匹配失敗後，都要找它前一個元素的部分匹配值，這樣使用起來就有些不方便，因此將PM表後移一位，這樣哪一個元素匹配失敗，直接看它的部分匹配值便可。這時候要注意兩個細節：
(1)第一個元素後移後空缺的位置用-1填充，由於如果第一個元素匹配失敗，則須要將子串向右移動一位，不須要計算移動的位數。
(2)最後一個元素在右移的過程當中溢出，他的部分匹配值是下一位元素使用的，但顯然已沒有下一個元素，故能夠捨去。
這樣就能夠把右移位數表達式寫爲以下：
右移位數=已匹配的字符數-對應的部分匹配值(子串失配位置的匹配值)
Move = (j-1) - next[j]
而後子串的比較指針就回退到：
j = j - Move = next[j] + 1
這就是失配時字串的比較指針回退的位置。最終獲得j=next[j]，含義是當子串的第j個元素失配時，則跳到子串的next[j]位置從新與主串當前位置進行比較。對象

四：求得next[j]數組

核心就是獲得子串的最大公共先後綴，而後把子串最大公共先後綴的前綴根主串和子串的最大公共先後綴相同的元素對其，再從主串的第i個位置進行比較。
當模式串已匹配字符序列中不存在最大公共先後綴時，應移動最大位數即j-1位，讓主串的第i個字符和模式第一個字符進行比較，此時右移位數最大。
當模式串第一個字符與主串的第i個字符失配時，規定next[1]=0，能夠認爲是主串第i個位置和模式串第一個字符的前面空位置對齊，直接將模式串後移，從主串的下一個位置(i+1)和模式串的第一個字符繼續比較。這樣能夠獲得next函數公式以下：blog