model-free強化學習-Policy-based

時間 2021-01-16

原文原文鏈接

Policy-based 將神經網絡作爲一個Actor，輸入是觀測observation，表示形式是一個向量或一個矩陣。輸出是每個行爲對應的概率，類似於分類問題中的判斷類別，會對應每個類別有個概率，如下如所示：考慮一個episode τ = { s 1 , a 1 , r 1 , s 2 , a 2 , r 2 , . . . , s T , a T , r T , } \tau=\{s_{1}

>>阅读原文<<