AI學習筆記——強化學習之動態規劃(Dynamic Programming)解決MDP(2)

求解最優MDP實際上就是找到最佳策略(Policy)π來最大化來最大化V函數(Value Function)。 公式一 1. 策略估算(Policy Evaluation) 在MDP問題中,如何評估一個策略的好壞呢?那我們就計算這個策略的V函數(值函數),這裏我們又要用到之前文章中提到的Bellman Equation了。 公式二 這個等式可以通過下一個狀態的值函數來求得當前狀態的值函數。如果我們
相關文章
相關標籤/搜索