Bourne強化學習筆記1:用簡單例子說明Off-policy的思想與使用方法

本着ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的學習規律,本人給出直觀理解、數學方法、圖形表達、簡單例子和文字解釋,來介紹off-policy,而on-policy也將在本講解過程中獲得理解。( 在此假設大家已瞭解Markov Process Decision,動作概率,轉移概率,Monte Carlo Met
相關文章
相關標籤/搜索