tensor2tensor 做 language model 的理解

language model(LM)沒有用encoder,只用了decoder, 在decoder代碼裏,transformer_prepare_decoder方法裏調用了shift_right_3d方法 使decode_input的sequence向右錯一位,即 target [1,2,3,4] input [0,1,2,3] 正好是預測下一個詞
相關文章
相關標籤/搜索