強化學習筆記（一）馬爾可夫決策過程

時間 2020-12-30

標籤強化學習人工智能機器學習算法简体版

原文原文鏈接

強化學習筆記（一）馬爾可夫決策過程參考資料正文 Q1: R t R_{t} Rt, G t G_{t} Gt, V ( S t ) V(S_{t}) V(St)都有獎勵或收穫的含義，它們有什麼區別？ Q2：爲什麼 G t G_{t} Gt使用那樣的衰減公式？ Q3：貝爾曼方程的作用？ Q4： π ( a ∣ s ) \pi(a|s) π(a∣s)和 P s s ′ a P_{ss'}^

>>阅读原文<<