強化學習筆記(一)馬爾可夫決策過程

強化學習筆記(一)馬爾可夫決策過程 參考資料 正文 Q1: R t R_{t} Rt​, G t G_{t} Gt​, V ( S t ) V(S_{t}) V(St​)都有獎勵或收穫的含義,它們有什麼區別? Q2:爲什麼 G t G_{t} Gt​使用那樣的衰減公式? Q3:貝爾曼方程的作用? Q4: π ( a ∣ s ) \pi(a|s) π(a∣s)和 P s s ′ a P_{ss'}^
相關文章
相關標籤/搜索