AI學習筆記——強化學習之動態規劃(Dynamic Programming)解決MDP(2)

時間 2021-01-08

原文原文鏈接

求解最優MDP實際上就是找到最佳策略(Policy)π來最大化來最大化V函數(Value Function)。公式一 1. 策略估算(Policy Evaluation) 在MDP問題中，如何評估一個策略的好壞呢？那我們就計算這個策略的V函數（值函數），這裏我們又要用到之前文章中提到的Bellman Equation了。公式二這個等式可以通過下一個狀態的值函數來求得當前狀態的值函數。如果我們

>>阅读原文<<