8.Actor-Critic+A2C+A3C

目錄 深度強化學習目錄 簡介 之前講了Policy-based方法,講了Value-based方法,現在來講一下結合兩種方法的Actor-Critic。 符號 r t r_t rt​:t時刻的即時獎賞。 R θ R_\theta Rθ​:使用參數 θ \theta θ時,某輪遊戲的累積獎賞。 G t G_t Gt​:時間從t到結束的累積獎賞,由於t時刻的獎勵是採取行動後t+1時刻才擁有的,所以 G
相關文章
相關標籤/搜索