tensor2tensor 做 language model 的理解

時間 2021-01-02

原文原文鏈接

language model（LM）沒有用encoder，只用了decoder，在decoder代碼裏，transformer_prepare_decoder方法裏調用了shift_right_3d方法使decode_input的sequence向右錯一位，即 target [1,2,3,4] input [0,1,2,3] 正好是預測下一個詞

>>阅读原文<<