三、表格型方法

三、表格型方法 文章目錄 三、表格型方法 Sarsa on-policy和off-policy Q-learning Sarsa MDP問題可以表示爲四元組(S,A, R,P)。S爲狀態,A爲動作,R爲獎勵,P爲轉移概率。也可以在四元組的基礎上再加一個衰減因子γ表示爲五元組。如果我們知道這些狀態轉移概率和獎勵函數的話,就說這個環境是已知的,因爲我們是用這兩個函數去描述環境的。 我們用價值函數V,V
相關文章
相關標籤/搜索