強化學習《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》論文閱讀筆記

時間 2020-12-29

原文原文鏈接

《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》引言最近接觸到了一個新的概念policy gradient。在強化學習當中，基本思想是根據當前的狀態，計算採取每個動作的價值，然後根據價值去貪心選擇動作。如果省略中間步驟，直接根據狀態，輸出動作，也就是強化學習當中另外一種重要的方法。具體的大家可以參考這一篇博客這一篇文章，主要是在a

>>阅读原文<<