與language model 不一樣網絡
MT model 的a<0> 是由encoder 生成的。翻譯
language model 的 a<0> 是 初始化的。3d
爲何不用 greedy search ?code
B=3 的意思是,每次greedy search 選出3個詞,而後在根據當前3個詞,分別生成下一個詞,下一個詞也生成3個 循環下去。blog
都是機率,很小的機率相乘,值更小,不少0的,影響精度,不如取個log,model
取完log 還有一個問題,這樣單純的機率相乘是傾向於生成短句子的。循環
由於短句子的機率是最大的。單詞越多 機率越小。im
因此歸一化 ,除以tg的a次方 d3
當a==0 :實際上是沒有歸一化的。img
a==1:徹底取決於長度。
a 是一個超參數。
beam search 雖然快,可是不能保證結果是正確(機率最大)的。
咱們經過分析,要判斷是rnn encoder 的偏差 仍是 beam search 的偏差,從而決定如如何去改進。
rnn 產生的偏差,咱們就改善網絡。
beam search 的偏差,咱們能夠加大B.