第六週學習筆記

第六週學習筆記 本週的主要學習工作 1.CS229 [課程地址] 第十七講,離散與維數災難 主要內容 離散化 爲MDP學習模型 擬合值迭代算法(Fitted value iteration),連續狀態空間的強化學習算法 值得注意的地方 1.未知的 Psa P s a 和 R R 即便我們能夠通過值迭代或策略迭代來解決MDP問題,但對於一些實際問題,我們不知道 P P 和 R R 的具體值,這時我們
相關文章
相關標籤/搜索