Q_learning在自然語言生成中的應用思考

Q_learning  from reinforcement learning 在學習Q_learning算法之前,我們需要了解一下,一個叫做時間差分學習的(temporal difference learning)思想。 它的迭代公式是: 其中是每個episode結束後獲得的實際累積回報,α是學習率,這個式子的直觀的理解就是用0實際累積回報作爲狀態值函數V()的估計值。具體做法是對每個episo
相關文章
相關標籤/搜索