深度強化學習 task03-2

1. 蒙特卡洛MC和時序差分TD的區別 蒙特卡洛(回合更新):一個序列產生之後計算總收益,然後再更新 時序差分(單步更新):每走一步進行一次更新 強化學習主要採用的是蒙特卡洛的回合更新的方式 2. 具體計算方法 具體代碼爲 計算輸出action時用到類似交叉熵損失的方法,但由於真實的action未知,因此在交叉熵前乘一個權重(獎勵分數),分數越高的輸出這樣的action概率越大,代碼爲 3.on
相關文章
相關標籤/搜索