機器學習方法篇(26)------蒙特卡羅方法

● 每週一言 易怒與躁動,是不成熟的表現。 導語 蒙特卡洛,是袖珍之國摩納哥的一座賭城名字。馮·諾依曼用一個賭城的名字命名蒙特卡洛方法,增加了這個方法的神祕性。那麼,MC的算法思想是什麼? 蒙特卡羅方法 如上一節所述,MC是一種基於樣本而不基於模型的價值學習方法,只需要在不斷試錯過程當中學習到的經驗。總體來說,MC的核心思路步驟是:探索 → 模擬 → 抽樣 → 估值 → 策略優化。 在上一節中我們
相關文章
相關標籤/搜索