強化學習 5.4

5.4沒有探索開始的蒙特卡羅控制 我們如何避免探索開始的不太可能的假設?確保無限選擇所有操作唯一的一般方式是代理繼續選擇他們。有兩種方法可以確保這一點,從而產生我們所謂的on-policy方法和off-policy方法。On-policy方法試圖評估或改進用於制定決策的政策,而off-policy方法則用於評估或改進與用於生成數據的政策不同的政策。上面開發的蒙特卡羅ES方法是一個on-policy
相關文章
相關標籤/搜索