強化學習 5.2

雖然我們對二十一點任務中的環境有完整的瞭解,但使用DP方法計算值函數並不容易。 DP方法需要分發下一個事件——特別是它們需要由四參數函數p給出的環境動態——而且並不容易確定。例如,假設玩家的總和是14,他選擇堅持。作爲經銷商出示卡片的函數,他以+1的獎勵終止的概率是多少?必須在應用DP之前計算所有概率,並且這種計算通常很複雜且容易出錯。相反,蒙特卡羅方法所需的生成樣本遊戲很簡單。經常出現這種情況;
相關文章
相關標籤/搜索