MDP總結

MDP總結 強化學習建模 強化學習問題可以下圖來表示: 上面右圖中的大腦代表執行強化學習算法的個體(Agent、或稱爲代理)。個體通過強化學習算法計算出一個適合當前狀態的動作 A t A_t At​。地球代表強化學習問題中涉及的環境,它有自己的狀態模型。個體在狀態 S t = s S_t=s St​=s下選擇動作後,環境狀態從 S t = s S_t=s St​=s轉移至 S t + 1 = s
相關文章
相關標籤/搜索