強化學習點滴

強化學習 Agent learns to take actions maximizing expected reward or expected cumulative reward per episode. 基於模型的方法 無模型的方法 首先得說一下這裏的模型指的是什麼。 model就是用來預測環境接下來會幹什麼,即在這一狀態的情況下執行某一動作會達到什麼樣的狀態,這一個動作會得到什麼reward
相關文章
相關標籤/搜索