強化學習點滴

時間 2021-01-18

原文原文鏈接

強化學習 Agent learns to take actions maximizing expected reward or expected cumulative reward per episode. 基於模型的方法無模型的方法首先得說一下這裏的模型指的是什麼。 model就是用來預測環境接下來會幹什麼，即在這一狀態的情況下執行某一動作會達到什麼樣的狀態，這一個動作會得到什麼reward

>>阅读原文<<