強化學習——Task02 表格型方法及馬爾科夫決策

強化學習——Task02 表格型方法及馬爾科夫決策 1.馬爾可夫決策過程(MDP) 2.Q-table 3.Temporal Difference 4.Sarsa: On-policy TD Control 1.馬爾可夫決策過程(MDP) 強化學習的三個重要的要素:狀態、動作和獎勵。強化學習智能體跟環境是一步一步交互的,就是我先觀察一下狀態,然後再輸入動作。再觀察一下狀態,再輸出動作,拿到這些 r
相關文章
相關標籤/搜索