RL for Sentence Generation

本篇博文主要總結下臺大教授李宏毅深度學習課程中關於 seqGAN s e q G A N 的相關內容,而且添加了本身的一些思考。web Policy Gradient 衆所周知,強化學習的目標就是 Maximizing Expected Reward M a x i m i z i n g   E x p e c t e d   R e w a r d ,在 seqGAN s e q G A N
相關文章
相關標籤/搜索