David Silver強化學習課程筆記(三)

第三課:動態規劃         課程標題本來是「Planning by Dynamic Programming」,應該翻譯爲」利用動態規劃方法進行規劃「,但是感覺有點長,所以就使用」動態規劃「作爲標題,大家理解就好......         先說下這節課講的主要內容,主要有:策略估計、策略迭代、值迭代、動態規劃擴展、收縮映射定理。其中策略估計主要介紹如何利用迭代方法對策略的值函數進行估計,也即
相關文章
相關標籤/搜索