塊分割,維特比算法小結

學習總結

在ER中,有一類算法依靠參考結構化數據庫的模型實現,以便提升ER的速度。可是這類算法經常在運行中產生了大量重複計算,下降了效率。由此,經過介紹如下方法,來解決這個問題:算法

塊分割

給定的字符串:數據庫

X=x1,...xn;其中既有單詞又有標點

子序列:網絡

s1,...,sp;對X進行分割後,生成的包含一個或多個單詞的字符串
sp=(tp,up,y);tp起始位置,up爲結束位置,y爲特徵

特徵集合:函數

Y=y1,..,yj;前後有序令y表示X中子序列的特徵

例子:
x1x2x3表示一我的名;x5x6x7x8表示一個題目;
人名,題目用yj表示;
子序列s1=x1x2x3。
其中s1的起始位置用t1表示(這裏t1=2),結束位置用u1=3表示。
而且
圖片描述
最大不超過X的長度,最小不低於1.學習

圖片描述

第二個子串的起始位置在第一個子串結束位置以後的第一個單詞,也就是相鄰子串之間沒有空隙,是連續的。優化

圖片描述
最後一個子串up結束的位置爲X序列結束位置,第一個子串s1起始位置爲X序列第一個單詞。
注意up的下標p,對應子序列sp中的p,下標的計數p跟子串個數S相關,把X分紅10個子串,那麼P=10,且起始位置tp與結束位置up的下標是一致的,例s1(t1,u1),s2(t2,u2)spa

特徵提取函數:
圖片描述設計

y'表示前一個特徵,y表示當前特徵,X表示字符串,tj,uj同上描述。
特徵提取函數集g1,...gv,每一個一個特徵函數(就是一種分割方法)都會有一個與其對應的權重wk。
經過使用維特比算法從這些特徵函數中找到使得權重和最大的特徵提取函數序列,換句話說,權重和最大表示了該特徵提取函數序列對X進行了最優化分割。
這一過程是在訓練中完成。接下來將介紹最優化分割。code

最優化分割:
圖片描述圖片

s*表示在全部s1,...,sp中,得分最高的一個si。
因爲每一個特徵提取函數g都會生成一個序列s1,...,sp,因此須要維特比算法找到一條路徑,使得改路徑上的每個s都達到最大值。

圖片描述表示可能的分割序列的集合,所謂分割序列,意思是由不一樣的特徵提取函數生成不一樣的分割序列,s1:y---si:y

該算法將造成一條路徑,該路徑上每個si:y都是整個Si:y集合中的最大值,用圖片描述表示

圖片描述

圖片描述

y'表示前一個特徵,其做用是機率傳遞,意思是,在計算完第一個特徵值後,其值將影響下一個特徵值的計算,以此類推,造成一條路徑。若沒有y',則退化成簡單最大值計算問題。

y1       y2     y3  . . .                   ym  
  s1       s1max  .   . . .                   s1  
  s2max    s2          .                      s2  
  s3       s3                .                s3  
  .         .               .                 .   
  .         .                 .               .  
  .         .     .   . . .  . .              .   
  si       si     .   . . .  . .   .   .   .  si

i行m個列,每次計算從m個列中選取一個,計算到下一個列的距離(從第i行的m個節點中挑一個計算到i+1行m個節點的距離),m*m,一共計算i行, 其複雜度爲O(IM2)
σ(1,y)表示在序列s2中,y1特徵獲得了最大值。依據公式(1),在對y2計算時,將選取s2做爲起點,將其值傳入下一步計算。也就是說y2的最大值受y1影響。
從m個分詞中挑選一個分詞,計算該分詞到下一個分詞的值(之前一個分詞爲起點,把下一個全部特徵的分詞都計算一遍)。

維特比算法

維特比算法是一個特殊但應用最廣的動態規劃算法,利用動態規劃,能夠解決任何一個圖中的最短路徑問題。其優勢是利用動態規劃下降複雜度。而維特比算法是針對一個特殊的圖——籬笆網絡的有向圖(Lattice )的最短路徑問題而提出的。 它之因此重要,是由於凡是使用隱含馬爾可夫模型描述的問題均可以用它來解碼。
假設整個籬笆有向圖中每一列節點最多有m個(也就是圖的寬度爲D),而且圖一共有N列,那麼,每次計算至多計算m*m次(從i列的m個節點中挑一個計算到i+1列m個節點的距離)。至多計算N次。那麼複雜度驟減爲O(Nm2)m的平方,遠遠小於窮舉O(mN)m的n次方。
馬爾科夫鏈是對多參數條件機率計算的化簡,假設某一點的條件機率只和其以前某點相關,與其餘點無關。這樣就造成了機率傳遞鏈。

爲了比較算法的優劣,咱們設計了一個時間下線,即在最好的狀況下的時間消耗。用空間換時間是優化算法的一個經常使用的方法。存儲大量中間生成組件,並重複利用,避免了從新生成部件的過程,減小了時間,但存儲空間變大了。

相關文章
相關標籤/搜索