深度強化學習 task03-2

時間 2021-05-20

原文原文鏈接

1. 蒙特卡洛MC和時序差分TD的區別蒙特卡洛（回合更新）：一個序列產生之後計算總收益，然後再更新時序差分（單步更新）：每走一步進行一次更新強化學習主要採用的是蒙特卡洛的回合更新的方式 2. 具體計算方法具體代碼爲計算輸出action時用到類似交叉熵損失的方法，但由於真實的action未知，因此在交叉熵前乘一個權重（獎勵分數），分數越高的輸出這樣的action概率越大，代碼爲 3.on

>>阅读原文<<