完全弄懂後綴數組

時間 2019-11-12

標籤完全弄懂後綴數組简体版

原文原文鏈接

什麼叫後綴數組首先要知道什麼叫後綴？html

好比字符串 abcdef 那麼 abcdef bcdef cdef def ef f 就叫作後綴也就是從最後一個字母以前的一個字母開始一直到最後一個字母（因此所 bcd不是後綴由於沒有到最後一位f）所構成的字符串就叫作後綴算法

至於後綴數組能幹什麼？我在這就不介紹了這不是本文的重點！本文主要講解後綴數組應該怎麼寫代碼！數組

寫本文的緣由大數據

可是本身以前讀過不少後綴數組的文章短短二三十代碼卻沒有找到一篇博客從頭至尾講解的url

多是由於我沒有搜索到spa

本身斷斷續續一個月終於算是對倍增算法（就是一個名字沒必要糾結什麼叫倍增算法）有個比較深刻理解3d

這是原始代碼code

int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
 
int cmp(int *r , int a, int b, int l)
{
    return r[a] == r[b] && r[a+l] == r[b+l];
}
void da (int *r , int *sa , int n, int m)
{
    int i, j, p, *x = wa, *y = wb , *t;
    for(i = 0; i < m; i++) 
        ws[i] = 0;
    for(i = 0; i < n; i++) 
        ws[x[i] = r[i]]++;
    for(i = 1; i < m; i++) 
        ws[i] += ws[i-1];
    for(i = n-1; i >= 0; i--) 
        sa[--ws[x[i]]] = i;
    for(j = 1,p = 1; p < n ; j <<= 1,m = p)
    {
        for(p = 0, i = n - j; i < n; i++) 
            y[p++]=i;
        for(i = 0; i < n; i++)
            if(sa[i] >= j)
                y[p++] = sa[i] - j;
        for(i = 0; i < n; i++)
            wv[i] = x[y[i]];
        for(i = 0; i < m; i++)
            ws[i] = 0;
        for(i = 0; i < n; i++)
            ws[wv[i]]++;
        for(i = 1; i < m; i++)
            ws[i] += ws[i-1];
        for(i = n-1; i >= 0; i--)
            sa[--ws[wv[i]]] = y[i];
        for(t = x,x = y,y = t,p = 1,x[sa[0]] = 0,i = 1; i < n;i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
}

要想了解上面的代碼首先你要知道什麼叫基數排序（基數排序百度百科）htm

假設你也已經瞭解了了基數排序那麼下面咱們就要解析上面的代碼blog

還有在這裏你首先要知道 什麼是兩個概念

後綴數組(SA[i]存放排名第i大的後綴首字符下標) 下面引號內內容能夠不看

　　後綴數組 SA 是一個一維數組，它保存1..n 的某個排列 SA[1] ，SA[2] ， ……， SA[n] ，而且保證Suffix(SA[i])<Suffix(SA[i+1])， 1 ≤ i<n 。也就是將 S 的 n 個後綴從小到大進行排序以後把排好序的後綴的開頭位置順次放入SA 中。

名次數組（rank[i]存放各個後綴的優先級）

　　名次數組 Rank[i] 保存的是如下標 i 開頭的後綴在全部後綴中從小到大排列的「名次」。

最後總結爲 SA[i] = j表示爲按照從小到大排名爲i的後綴是以j（下標）開頭的後綴

rank[i] = j 表示爲按照從小到大排名以i爲下標開始的後綴排名爲j

RANK表示你排第幾 SA表示排第幾的是誰 （記住這個就行）

下面的這張圖就是上面算法的思想可是我當時看的時候暈了

下面咱們一步步來

首先無論什麼算法咱們來點暴力的假設如今咱們直接來求一個字符串全部後綴的大小（所謂後綴的大小就是比較字符串的大小這個必定要知道）你會怎麼作？

想到了！

兩個for循環比較唄可是這樣算法確定慢

int smpStr(char* str,int len){

　　int k=0;

　　for(int i=0;i<len;i++){

　　　　for(int j=i;j<len;j++){

　　　　　　if(strcmp(str+k,str+j)>0){

　　　　　　　　k = j;
　　　　　　}

　　　　}
　　　　rank[k] = i;
　　}

}

考慮到後綴數組的特殊性咱們換一種比較方式

爲何稱它特殊由於一個字符串全部的後綴之間是有關係的

好比以字符串 abcdef 來舉例

後綴bcdef 與 cdef 就有比較強的關係後一個是前一個的組成部分準確來講是後半組成部分

那麼怎麼利用他們這種關係請繼續看

一首先考慮到比較方便咱們把全部的字母都減去 a-1 這裏我只考慮全部字母都是小寫字母的方式

加入字符串是 aabaaaab

下面將相鄰倆個數合併爲一個整數

這樣下面使用基數排序對這個合併後的整數進行排序爲何使用基數排序由於它的位數固定也許你會問那

字母 ‘z’ 減去‘a’- 1 不是大於10了嗎那不是3位數了嗎不是這樣的把 z 減去‘a’- 1 =26 看作是一個數而不是二十六

將至關於16進制同樣15不是看作兩位數而是用F來表示固然你高興徹底能夠把26寫做Z之後 Z就是26

下面我講解一下這個很重要爲何要兩兩合併爲一個數

首先求全部後綴數組最後組成爲下圖

那麼每個後綴之間都是有重複的第1個後綴的前兩個就是第0個後綴的第一到第三個字母

那麼一次類推也就是說我按下圖分爲兩兩一組

將上圖的兩兩一組一個整數按照基數排序的結果爲

解釋一下第一個11 排第一名第二個12 排第二名

那麼你有沒有發現第0個後綴到第7個後綴的前兩個字母的比較已經出來了由於第一個11 就是第1個後綴的前兩個字母第二個12 就是第2個後綴的前兩個字母

什麼意思看圖

好了如今咱們已經比較全部後綴的前兩個字母下面我開始比較後面那麼我怎麼比較前兩個字母后面的字符串呢由於剛纔我已經把全部的兩兩字母的大小已經比較出來了我如今能夠利用下面的結果再比較看圖其中合併後的 1121 就是第一個後綴的前四個字母 1211 就是第二個後綴的前四個字母

下面開始再次拼接如圖最後這號拼成八位數也就是正好字符串的長度這時候可使用基數排序來比較可是假如字符串10000個呢那麼有10000個後綴每一個後綴的長度是10000 意味着最後拼接成的數也是有10000位 10000*10000咱們須要開闢這麼大數據這是不可行的那麼咱們能不能將每次拼接的大數縮小呢？

先看圖

首前後綴數組最終要得到的是後綴的排名那麼究竟是1112 仍是 11 是1221 仍是24 無所謂

我只要把他們保持合適的大小就好比說小明考了100分小紅考了89分小剛考了55分

那麼我如今把小剛設爲0分小紅設爲1分小明設爲2分那麼對他們最後的排名有影響嗎沒有

小明仍是第一名就是這個道理這樣咱們能夠最大程度減少存儲的開銷

因此我只要每次對合並的數據進行按照從小到大排個序用序號替換它而後再次按照以前的步驟再次合併再次排序替換（何時結束）當所有的字符串都參與了比較就中止了

那麼如今對1121    1211     2111   1111 1112    1120 1200 2000進行排序分紅兩組前兩個字母一組後兩個字母一組好比 1121這四個數字 11   與 21 兩份來基數排序

等等你有沒有發現咱們上面的排序後的排名跟第一關鍵字與第二關鍵字有關係也就是說

排名的大小就是第二關鍵字排名的爲何由於排序後的排名就是第二關鍵字的排序結果

那麼與第一關鍵字有什麼關係？有沒有發現就是把第一關鍵字的11去掉而後再加一個00

舉個生動的例子如今有不少人在排隊高矮不等，一開始是亂序的如今保安要求按從矮到高排列

排好序以後你們都有了本身的位置如今保安走開了隊伍又回到一開始的狀態而且原來站在最開始的人（亂序是的站在最開始的人）走了來了一個小矮人確定是最矮的保安回來要求再次排隊那麼小矮人確定站在最前面   下面保安喊道上次排序排第一的人接上若是走的那我的是第一那麼就繼續後面若是不是上次排名第一的人就站上來    而後保安繼續叫一直到上次排名最後的一個

上面這個故事就對應於下面的代碼

for(p = 0, i = n - j; i < n; i++)

         y[p++]=i;

for(i = 0; i < n; i++)

          if(sa[i] >= j)

                y[p++] = sa[i] - j;

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。