GAN(9)——sequence generation

seq2seq的模型訓練 傳統方法的問題——RL中不存在標準回答,用Reward標識每個樣本的權重,迭代更新 兩者其實不是矛盾的,maximum likelihold 作爲判別器,RL本身作爲生成器?   on policy就是訓練學生 off policy就是訓練老師 強化學習的一大難點就是:需要大量的對當前訓練樣本的reward的計算 比如定義,evalucation function代替re
相關文章
相關標籤/搜索