強化學習 5.4

時間 2020-12-22

標籤強化學習简体版

原文原文鏈接

5.4沒有探索開始的蒙特卡羅控制我們如何避免探索開始的不太可能的假設？確保無限選擇所有操作唯一的一般方式是代理繼續選擇他們。有兩種方法可以確保這一點，從而產生我們所謂的on-policy方法和off-policy方法。On-policy方法試圖評估或改進用於制定決策的政策，而off-policy方法則用於評估或改進與用於生成數據的政策不同的政策。上面開發的蒙特卡羅ES方法是一個on-policy

>>阅读原文<<