強化學習從入門到放棄(一)基本數學模型MDP

強化學習最本質的數學模型,MDP 強化學習的本質其實就是一個馬爾可夫決策過程(MDP),在一個,MDP中最關鍵的一個公式就是bellman equation: 下面說的是在一個沒有action的MRP過程中,一個狀態的價值 v ( s ) v(s) v(s)與當前狀態的獎勵 R ( s ) R(s) R(s) 和此狀態的轉移狀態 V ( s ′ ) V(s') V(s′)有關。 對於Bellman
相關文章
相關標籤/搜索