強化學習(八):Dyna架構與蒙特卡洛樹搜索MCTS

強化學習(八):Dyna架構與蒙特卡洛樹搜索MCTS   在基於表格型強化學習方法中,比較常見的方法有動態規劃法、蒙特卡洛法,時序差分法,多步引導法等。其中動態規劃法是一種基於模型的方法(Model-based),因爲它的前提是必須要知道所有狀態和動作以及獎勵的分佈;後面的幾種方法則是基於採樣的方法,試圖讓智能體通過與環境交互來獲得經驗,從經驗中推出相關的策略。因此本節對相關內容進行一個簡單的總結
相關文章
相關標籤/搜索