理解 on-policy 和 off-policy

轉自:https://www.cnblogs.com/xiachongkun/p/7767976.html,感謝分享 大名鼎鼎的蒙特卡洛方法(MC),源自於一個賭城的名字,作爲一種計算方法,應用領域衆多,主要用於求值。蒙特卡洛方法的核心思想就是:模擬---抽樣---估值。 蒙特卡洛的使用條件:1.環境是可模擬的;2.只適合情節性任務(episode tasks)。 蒙特卡洛在強化學習中的應用: 1
相關文章
相關標籤/搜索