Image Cption:Curiosity-driven Reinforcement Learning for Diverse Visual Paragraph Generation

三個挑戰:模式崩潰、延遲反饋、策略網絡熱身損耗時間長 這篇paper: 首先通過將段落標題作爲一個長期的決策過程進行建模,並將狀態轉換的預測不確定性作爲內在獎勵進行測量,該模型被激勵去記憶準確但很少被發現的描述單詞,而不是那些頻繁使用的通用模式。這樣使得我們最後生成的段落內容生動有趣; 其次,由於評價的外部獎勵只能在完整段落生成後有效,我們通過考慮連續動作的相關性,用視察學習法估計每一步的期望值。
相關文章
相關標籤/搜索