後綴數組詳解+模板

後綴數組

SA[] 第幾名是誰ios

後綴數組:後綴數組 SA 是一個一維數組, 它保存 1..n 的某個排列 SA[1] ,SA[2],……,SA[n],而且保證 Suffix(SA[i]) < Suffix(SA[i+1]),1≤i<n 。也就是將 S 的 n 個後綴從小到大進行排序以後把排好序的後綴的開頭位置順次放入 SA 中。算法

Rank[] 誰是第幾名名次數組:名次數組 Rank[i]保存的是 Suffix(i)在全部後綴中從小到大排列的「名次 」 。c#

r[]:原始數據j當前字符串的長度,每次循環根據2個j長度的字符串的排名求得2j長度字符串的排名.數組

y[]:指示長度爲2j的字符串的第二關鍵字的排序結果,經過存儲2j長字符串的第一關鍵字的下標進行指示.函數

wv[]:2j長字符串的第一關鍵字的排名序號.spa

ws[]:計數數組,計數排序用到.code

x[]:一開始是原始數據r的拷貝(其實也表示長度爲1的字符串的排名),以後表示2j長度字符串的排名.blog

p:不一樣排名的個數.排序

片斷

1.對長度爲1的字符串進行排序(函數的第一步)

for(i=0;i<m;i++) ws[i]=0; for(i=0;i<n;i++) ws[x[i]=r[i]]++; for(i=1;i<m;i++) ws[i]+=ws[i-1]; for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;

 

①用的是基數排序,也可使用其它的排序ci

②r[]存儲本來輸入的字符串,x[]是對r[]的ASCII呈現(便於排序)

③m是一個估計數字,表明ASCII最大值,在循環中作邊界

④n在這裏是字符串的長度+1,後面的加加減減有所體現(貌似不介意直接用字符串的長度)

⑤最後一行比較難懂,但實踐證實它確實是正確的,sa[i]=j表示第i名是j。

ws[i]是對第i及以前字符出現次數的累加,越日後ws[i]越大,並且對應的字符數值越大,舉個例子,若是某一字符串爲aaabaa,則a出現的次數爲5,b出現的次數爲1,按上述原理,能夠看作ws[a]=5,ws[b]=6,當然a都在前5名,b在第六名。

對aabaaaab進行輸出後爲801345627,按照sa的定義對應起來

aabaaaab ~

23845679 1  很是正確

理解了這個,最後一行就能明白了

2.進行若干次基數排序

由於前面排序的名次可能有重複,因此要再進行若干次,直到全部的名次都再也不相同

for(j=1,p=1; p<n; j*=2,m=p) { for(p=0,i=n-j; i<n; i++) y[p++]=i; for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j; for(i=0; i<n; i++) wv[i]=x[y[i]]; for(i=0; i<m; i++) Ws[i]=0; for(i=0; i<n; i++) Ws[wv[i]]++; for(i=1; i<m; i++) Ws[i]+=Ws[i-1]; for(i=n-1; i>=0; i--) sa[--Ws[wv[i]]]=y[i]; for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++) x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++; }

 

相對於上面函數的第一步來講,這一坨代碼更加複雜了

①從最外層循環能夠看出,j是處於倍增狀態的,表明正在比較的每一小段字符串的長度

②循環內的第一行,循環了j-1次,是對後面幾個數的提早處理(其第二關鍵字都爲0)如圖

即全部加0的數

③第二行,再翻上去看一眼sa的做用。首先要明白這一行拋棄了一些東西,

 

因爲是對第二關鍵字的排序,第一關鍵字先不看,因此有一條件if(sa[i]>=j)

這條語句後面y[p++]=sa[i]-j,要減去j也是由於這個

到這裏,第二關鍵字的排序就完成了

 

④開始第一關鍵字的排序

假設須要排序的數爲92 71 10 80 63 90

那麼y[]=3 4 6 2 1 5 即對第二關鍵字排序後名次遞增所對應的序號

      x[]=10 80 90 71 92 63 即對第二關鍵字排序的結果

for(i=0; i<n; i++) wv[i]=x[y[i]];將x[]數組拷貝到wv[]中

⑤剩下的基數排序就與對長度爲1的字符串進行排序同樣了

完整的代碼(參考理解)

#include <cstdio> #include <iostream> #include <cstring>
#define  LL long long
#define  ULL unsigned long long
using namespace std; const int MAXN=100010; //如下爲倍增算法求後綴數組 
int wa[MAXN],wb[MAXN],wv[MAXN],Ws[MAXN]; int cmp(int *r,int a,int b,int l) {return r[a]==r[b]&&r[a+l]==r[b+l];} /**< 傳入參數:str,sa,len+1,ASCII_MAX+1 */ 
void da(const char r[],int sa[],int n,int m) { int i,j,p,*x=wa,*y=wb,*t; for(i=0; i<m; i++) Ws[i]=0; for(i=0; i<n; i++) Ws[x[i]=r[i]]++;//以字符的ascii碼爲下標 
      for(i=1; i<m; i++) Ws[i]+=Ws[i-1]; for(i=n-1; i>=0; i--) sa[--Ws[x[i]]]=i; /*cout<<"SA"<<endl;; for(int i=0;i<n+1;i++)cout<<sa[i]<<' ';*/
      for(j=1,p=1; p<n; j*=2,m=p) { for(p=0,i=n-j; i<n; i++) y[p++]=i; for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j; for(i=0; i<n; i++) wv[i]=x[y[i]]; for(i=0; i<m; i++) Ws[i]=0; for(i=0; i<n; i++) Ws[wv[i]]++; for(i=1; i<m; i++) Ws[i]+=Ws[i-1]; for(i=n-1; i>=0; i--) sa[--Ws[wv[i]]]=y[i]; for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++) x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++; } return; } int sa[MAXN],Rank[MAXN],height[MAXN]; //求height數組 /**< str,sa,len */
void calheight(const char *r,int *sa,int n) { int i,j,k=0; for(i=1; i<=n; i++) Rank[sa[i]]=i; for(i=0; i<n; height[Rank[i++]]=k) for(k?k--:0,j=sa[Rank[i]-1]; r[i+k]==r[j+k]; k++); // Unified
      for(int i=n;i>=1;--i) ++sa[i],Rank[i]=Rank[i-1]; } char str[MAXN]; int main() { while(scanf("%s",str)!=EOF) { int len=strlen(str); da(str,sa,len+1,130); calheight(str,sa,len); puts("--------------All Suffix--------------"); for(int i=1; i<=len; ++i) { printf("%d:\t",i); for(int j=i-1; j<len; ++j) printf("%c",str[j]); puts(""); } puts(""); puts("-------------After sort---------------"); for(int i=1; i<=len; ++i) { printf("sa[%2d ] = %2d\t",i,sa[i]); for(int j=sa[i]-1; j<len; ++j) printf("%c",str[j]); puts(""); } puts(""); puts("---------------Height-----------------"); for(int i=1; i<=len; ++i) printf("height[%2d ]=%2d \n",i,height[i]); puts(""); puts("----------------Rank------------------"); for(int i=1; i<=len; ++i) printf("Rank[%2d ] = %2d\n",i,Rank[i]); puts("------------------END-----------------"); } return 0; }
相關文章
相關標籤/搜索