三、表格型方法

時間 2021-01-27

原文原文鏈接

三、表格型方法文章目錄三、表格型方法 Sarsa on-policy和off-policy Q-learning Sarsa MDP問題可以表示爲四元組（S，A， R，P）。S爲狀態，A爲動作，R爲獎勵，P爲轉移概率。也可以在四元組的基礎上再加一個衰減因子γ表示爲五元組。如果我們知道這些狀態轉移概率和獎勵函數的話，就說這個環境是已知的，因爲我們是用這兩個函數去描述環境的。我們用價值函數V，V

>>阅读原文<<