首先大體的學習一下有限自動機字符匹配算法,而後在討論KMP算法。算法
一個有限自動機M是一個五元組(Q,q0,A,Σ,δ),其中:數組
下面定義幾個相關函數:函數
來回顧一下樸素算法。給定下面兩個字符串,模式串P,和匹配串T。學習
i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
P | a | b | a | b | a | c | a | ||||
T | a | b | a | b | a | b | a | c | a | b | a |
當第一次匹配時,i=0,可是掃描到i=5的時候,字符串不在匹配。此時另i=1,從新匹配。這就是樸素算法須要改進的地方。當i=5的時候,觀察表格發現P[0...3]=T[2...5],此時若是可以匹配T[5+1]和P[3+1]就不須要從i=2開始掃描了,效率就大大的提高了,這樣匹配的時間複雜度就只有O(n)了。這裏P[0...3]叫作P的前綴,T[2...5]叫作T5的後綴。此時σ(T5) = 3。這樣在自動機的操做中,若是每次狀態轉移都可以保證:spa
φ(Ti)=σ(Ti)blog
那麼就能夠保證最終的正確匹配。下面來作簡單的推理:遞歸
根據φ(x)的定義,有φ(Tia) = δ(φ(Ti),a),其中a爲任意字母;字符串
由φ(Ti)=σ(Ti),能夠獲得φ(Tia)=σ(Tia) = q,即φ(Tia)=σ(Pqa);get
綜上,δ(φ(Ti),a)=σ(Pqa),,能夠獲得一個狀態轉移函數δ(q,a)=σ(Pqa)。這樣就能夠作出一個正確的狀態轉移圖,而後就能夠匹配字符串了。input
用文字來描述一下:在自動機中,狀態q就是Ti的後綴在P的最長前綴的長度。這樣每次可以知足這個條件,就可以保證算法的正確進行。這裏,在《算法導論》中有詳細的數學證實。
KMP算法不創建一個有限自動機,可是必需要構建一個前綴函數,這裏就叫作前綴數組吧。模式P和本身先匹配,獲得前綴數組。前綴數組其實保存的就是自動機中的σ(x)的值。這樣預處理的時間複雜度和自動機比就減小了不少。
給定模式P:
i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
P | a | b | a | b | a | b | a | b | c | a |
next | 0 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 0 | 1 |
這裏Pi[next[i]]表示的是Pi的關於P的最長後綴,P[i]表示P關於Pi的前綴。
當i=0時:
P0和P比較,P0[0] != P[0],因此next[0]=0;
當i=1時:
P1和P比較,P1[0] != P[1],因此next[1]=0;
當i=2時:
P2和P比較,P2[0] = P[2],因此next[2]=1;
當i=3時:
P3和P比較,P3[1] = P[3],因此next[3] = 2;
如此這般,就能夠求得next數組了。通常算法描述數組都是從1開始,可是寫代碼的時候,數組是從下標0開始的,因此上面的next數組的每個值都應該減一。next[i]=-1表示沒有前綴匹配。這樣在寫代碼的時候,應該是這樣的:
i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
P | a | b | a | b | a | b | a | b | c | a |
next | -1 | -1 | 0 | 1 | 2 | 3 | 4 | 5 | -1 | 0 |
當i=0時,初始化next[0] = -1;
當i=1時,(P1[next[0]+1] = a) != (P[1] = b),next[1] = -1;
當i=2時,(P2[next[1]+1] = a) != (P[2] = a),next[2] = 0;
當i=3時,(P3[next[2]+1] = b) !=(P[3] = b),next[3] = 1;
...
這樣就不難發現next數組的做用了,記錄了當前的σ(Pi)。Pi[next[i]+1] = P[i],就表示Pi最長前綴加一個字母和P的後綴加一個字母是否匹配。此時有兩種狀況:
下面是C代碼的實現的求next數組:
void get_next(char *P, int next[],int len) { printf("len=%d\n",len); next[0] = -1; int q = -1; int i; for(i = 1; i < len; i++) { while(q > 0 && P[q+1] != P[i]) { /* 判斷P[q+1]適合等於P[i] */ q = next[q]; /* 若是不相等, 一直找到知足條件的最長後綴 */ } if(P[q+1] == P[i]) q++; /* 若是相等,那麼很好,繼續... */ next[i] = q; } }
當求出next數組後,就能夠進行字符串匹配了。匹配的方法和求next的方法相識。下面是完整的代碼:
/************************************************************************* > File Name: KMP.c > Author: mr_zys > Mail: 247629929@163.com > Created Time: 2014年10月09日 星期四 14時48分30秒 ************************************************************************/ #include<stdio.h> #include<string.h> #define maxn 100 int next[maxn]; char P[maxn],T[maxn]; void get_next(char *P, int next[],int len) { printf("len=%d\n",len); next[0] = -1; int q = -1; int i; for(i = 1; i < len; i++) { while(q > 0 && P[q+1] != P[i]) { /* 判斷P[q+1]適合等於P[i] */ q = next[q]; /* 若是不相等, 一直找到知足條件的最長後綴 */ } if(P[q+1] == P[i]) q++; /* 若是相等,那麼很好,繼續... */ next[i] = q; } } void KMP(char *P, char *T) { int len_P = strlen(P); int len_T = strlen(T); int j = -1; int i; for(i = 0; i < len_T; i++) { while(j > -1 && T[i] != P[j+1]) { j = next[j]; } if(P[j+1] == T[i]) { j++; //printf("%d %d\n",j,i); } if(j == len_P-1){ printf("在%d處開始匹配\n",i-len_P+1); j = next[j]; } } } int main() { printf("input the string P:\n"); scanf("%s",P); printf("input the string T:\n"); scanf("%s",T); printf("%s\n",P); get_next(P,next,strlen(P)); int i; for(i = 0; i < strlen(P); i++) { printf("(%d)",next[i]); } printf("\n"); KMP(P,T); return 0; }
可能,中間有些表述不清,求指正哈!
-end-