強化學習《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》論文閱讀筆記

《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》 引言 最近接觸到了一個新的概念policy gradient。在強化學習當中,基本思想是根據當前的狀態,計算採取每個動作的價值,然後根據價值去貪心選擇動作。如果省略中間步驟,直接根據狀態,輸出動作,也就是強化學習當中另外一種重要的方法。具體的大家可以參考這一篇博客 這一篇文章,主要是在a
相關文章
相關標籤/搜索