【強化學習公式理解】

看了視頻後,發現對RL的理解浮於表面,很多問題想不明白,所以停下來整理下公式,加深對理論的理解程度再繼續推進。 第三章 Return 在一次實驗中,時間步t之後的獎勵記做 Rt+1, Rt+2, Rt+3, . . ., 片段獎勵Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1): 這個地方最後一個狀態是否一定是終結狀態呢?這個我現在也不知道,但是當面向具體的問題時,
相關文章
相關標籤/搜索