Lecture 5:Model Free Control -By David Silver

本文是自己學習David Silver課程的學習筆記:原視頻可以在油管或者B站上搜到。 PPT的連接如下:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html。網速慢的話可以點擊這裏。 之前我們說的方法都是在爲這一節課程做準備的,強化學習的最終目的是我們實現對實際問題的控制優化。根據探索策略(行動策略)和評估策略是否爲同一個策略。強化學
相關文章
相關標籤/搜索