Q_learning在自然語言生成中的應用思考

時間 2021-01-15

原文原文鏈接

Q_learning from reinforcement learning 在學習Q_learning算法之前，我們需要了解一下，一個叫做時間差分學習的(temporal difference learning)思想。它的迭代公式是：其中是每個episode結束後獲得的實際累積回報，α是學習率，這個式子的直觀的理解就是用0實際累積回報作爲狀態值函數V()的估計值。具體做法是對每個episo

>>阅读原文<<