Soft Bellman Equation and Soft Value Iteration證明

  本節基礎知識Soft Value function基礎和Soft Q Learning中Policy Improvement 證明   首先回顧一下Soft value function的定義: V s o f f π ( s ) ≜ log ⁡ ∫ exp ⁡ ( Q s o f t π ( s , a ) ) d a V_{\mathrm{soff}}^{\pi}(\mathbf{s})
相關文章
相關標籤/搜索