強化學習從入門到放棄（一）基本數學模型MDP

時間 2021-01-14

原文原文鏈接

強化學習最本質的數學模型，MDP 強化學習的本質其實就是一個馬爾可夫決策過程（MDP），在一個，MDP中最關鍵的一個公式就是bellman equation：下面說的是在一個沒有action的MRP過程中，一個狀態的價值 v ( s ) v(s) v(s)與當前狀態的獎勵 R ( s ) R(s) R(s) 和此狀態的轉移狀態 V ( s ′ ) V(s') V(s′)有關。對於Bellman

>>阅读原文<<