RL for Sentence Generation

時間 2019-12-05

標籤 sentence generation 简体版

原文原文鏈接

本篇博文主要總結下臺大教授李宏毅深度學習課程中關於 seqGAN s e q G A N 的相關內容，而且添加了本身的一些思考。web Policy Gradient 衆所周知，強化學習的目標就是 Maximizing Expected Reward M a x i m i z i n g E x p e c t e d R e w a r d ，在 seqGAN s e q G A N

>>阅读原文<<