強化學習-策略迭代

時間 2021-01-12

原文原文鏈接

1. 前言在強化學習-MDP(馬爾可夫決策過程)算法原理中我們已經介紹了強化學習中的基石--MDP，本文的任務是介紹如何通過價值函數，去尋找到最優策略，使得最後得到的獎勵儘可能的多。 2. 回顧MDP 通過學習MDP我們得到了2個Bellman公式：狀態值函數： \[ v_{\pi}(s_t)=\sum_{a_t}\pi(a_t|s_t)\sum_{s_{t+1}}p(s_{t+1}|s_t,

>>阅读原文<<