強化學習筆記03——有限馬爾科夫過程

時間 2021-07-13

原文原文鏈接

代理環境交互在強化學習中，將學習器和決策器稱爲代理，而與代理交互的事物稱爲環境。可將問題認爲代理與環境的交互。代理會產生一個與環境對應的策略，用 πt 表示， πt(a|s) 表示在狀態爲s的情況下采取動作a的概率。目標與報酬強化學習的目標就是最大化獲得的報酬總和。我們將代理與環境的一次完整交互過程稱爲一個episode.在一次episode中t時刻獲得的期望回報可以寫爲： T爲最後一步

>>阅读原文<<