model-free強化學習-Policy-based

Policy-based 將神經網絡作爲一個Actor,輸入是觀測observation,表示形式是一個向量或一個矩陣。輸出是每個行爲對應的概率,類似於分類問題中的判斷類別,會對應每個類別有個概率,如下如所示: 考慮一個episode τ = { s 1 , a 1 , r 1 , s 2 , a 2 , r 2 , . . . , s T , a T , r T , } \tau=\{s_{1}
相關文章
相關標籤/搜索