Seq2Seq ---學習筆記

應用場景:機器翻譯

 

與language model 不一樣網絡

MT model 的a<0> 是由encoder 生成的。翻譯

language model 的 a<0> 是 初始化的。3d

 

 

 greedy search 

爲何不用 greedy search ?code

 Beam Search   

B=3 的意思是,每次greedy search 選出3個詞,而後在根據當前3個詞,分別生成下一個詞,下一個詞也生成3個 循環下去。blog

 

 

 Beam Search   改進

 

都是機率,很小的機率相乘,值更小,不少0的,影響精度,不如取個log,model

取完log  還有一個問題,這樣單純的機率相乘是傾向於生成短句子的。循環

由於短句子的機率是最大的。單詞越多 機率越小。im

因此歸一化  ,除以tg的a次方  d3

當a==0 :實際上是沒有歸一化的。img

a==1:徹底取決於長度。

a 是一個超參數。

 

beam search 雖然快,可是不能保證結果是正確(機率最大)的。

Beam search 的偏差

咱們經過分析,要判斷是rnn encoder 的偏差 仍是 beam search 的偏差,從而決定如如何去改進。

rnn 產生的偏差,咱們就改善網絡。

beam search 的偏差,咱們能夠加大B.

相關文章
相關標籤/搜索