Seq2Seq ---學習筆記

時間 2019-12-06

標籤 seq2seq seq 學習筆記简体版

原文原文鏈接

應用場景：機器翻譯

與language model 不一樣網絡

MT model 的a<0> 是由encoder 生成的。翻譯

language model 的 a<0> 是初始化的。3d

爲何不用 greedy search ?code

B=3 的意思是，每次greedy search 選出3個詞，而後在根據當前3個詞，分別生成下一個詞，下一個詞也生成3個循環下去。blog

都是機率，很小的機率相乘，值更小，不少0的，影響精度，不如取個log,model

取完log 還有一個問題，這樣單純的機率相乘是傾向於生成短句子的。循環

由於短句子的機率是最大的。單詞越多機率越小。im

因此歸一化，除以tg的a次方 d3

當a==0 :實際上是沒有歸一化的。img

a==1：徹底取決於長度。

a 是一個超參數。

beam search 雖然快，可是不能保證結果是正確（機率最大）的。

咱們經過分析，要判斷是rnn encoder 的偏差仍是 beam search 的偏差，從而決定如如何去改進。

rnn 產生的偏差，咱們就改善網絡。

beam search 的偏差，咱們能夠加大B.

相關標籤/搜索