強化學習——Task02 表格型方法及馬爾科夫決策

時間 2021-07-13

標籤強化學習简体版

原文原文鏈接

強化學習——Task02 表格型方法及馬爾科夫決策 1.馬爾可夫決策過程（MDP) 2.Q-table 3.Temporal Difference 4.Sarsa: On-policy TD Control 1.馬爾可夫決策過程（MDP) 強化學習的三個重要的要素：狀態、動作和獎勵。強化學習智能體跟環境是一步一步交互的，就是我先觀察一下狀態，然後再輸入動作。再觀察一下狀態，再輸出動作，拿到這些 r

>>阅读原文<<