在馬爾科夫決策中,有個獎勵因子r,在計算總指望價值的時候,獎勵因子r的次方數會逐步增長。對於這個的解釋能夠理解爲:今天的一元錢在明天通常都會貶值。因此當某個狀態s較晚到達時,要控制獎勵因子使得得到的價值減小。算法
\[ V^{\pi} = R(s) + \gamma \sum_{s^{'}\epsilon S } P_{s\pi(s)}(s^{'})V^\pi (s^{'}) \]函數
假設有n個狀態,則能夠列出n個Bellman方程,且共含有n個未知量,那麼就能夠經過解這個線性方程組獲得每一個狀態下對應的價值函數的值;學習
假如狀態有n個,政策迭代在計算時,須要計算含有n個方程和n個變量的方程組,當n≤1000時,政策迭代比較適用,當n>1000時,值迭代效率會更高。spa
由於在政策迭代中,須要求解Bellman方程,當狀態數變多時,就須要求解同等數量的方程,這是一個至關大的計算負荷,所以此時使用值迭代會更好。blog
在實際狀況中,對於MDP的五元組,轉移機率經常是未知的。咱們能夠經過統計在每一個狀態下打到某個狀態的轉移次數來獲得近似的轉移機率。此外,有時狀態s1沒法轉移到狀態s2,爲了不出現0除的狀況,能夠用 1 / |S|替代其機率。class
if R is unknown, we can also pick our estimate of the expected immediate reward R(s) in state s to be the average reward observed in state s.效率
對於連續型的狀態,能夠設定必定量的區間,使其離散化,將連續型的MDP變成離散型的MDP來解決。可是離散化一般而言表現都不是很好,數據分佈的多樣性被消除了,所以就沒法學習到更深層次的數據的潛在信息。離散化還可能致使出現維數災難。變量