強化學習筆記03——有限馬爾科夫過程

代理環境交互 在強化學習中,將學習器和決策器稱爲代理,而與代理交互的事物稱爲環境。可將問題認爲代理與環境的交互。 代理會產生一個與環境對應的策略,用 πt 表示, πt(a|s) 表示在狀態爲s的情況下采取動作a的概率。 目標與報酬 強化學習的目標就是最大化獲得的報酬總和。 我們將代理與環境的一次完整交互過程稱爲一個episode.在一次episode中t時刻獲得的期望回報可以寫爲: T爲最後一步
相關文章
相關標籤/搜索