GAN(9)——sequence generation

時間 2021-01-02

原文原文鏈接

seq2seq的模型訓練傳統方法的問題——RL中不存在標準回答，用Reward標識每個樣本的權重，迭代更新兩者其實不是矛盾的，maximum likelihold 作爲判別器，RL本身作爲生成器？ on policy就是訓練學生 off policy就是訓練老師強化學習的一大難點就是：需要大量的對當前訓練樣本的reward的計算比如定義，evalucation function代替re