強化學習 5.2

時間 2021-07-12

原文原文鏈接

雖然我們對二十一點任務中的環境有完整的瞭解，但使用DP方法計算值函數並不容易。 DP方法需要分發下一個事件——特別是它們需要由四參數函數p給出的環境動態——而且並不容易確定。例如，假設玩家的總和是14，他選擇堅持。作爲經銷商出示卡片的函數，他以+1的獎勵終止的概率是多少？必須在應用DP之前計算所有概率，並且這種計算通常很複雜且容易出錯。相反，蒙特卡羅方法所需的生成樣本遊戲很簡單。經常出現這種情況;

>>阅读原文<<