七月算法強化學習 第二課 學習筆記

一.Unknown Environment MDP  1.回顧: 1)Known Environment MDP 策略評估 2)Known Environment MDP 尋找最優策略 2.Unknown Environment MDP 1)大多數時候模型未知,No knowledge of MDP transitions / rewards What do you do when don’t k
相關文章
相關標籤/搜索