上文介紹了馬爾科夫決策過程之Markov Processes(馬爾科夫過程),能夠移步到下面:
馬爾科夫決策過程之Markov Processes(馬爾科夫過程)機器學習
本文咱們總結一下馬爾科夫決策過程之Markov Reward Process(馬爾科夫獎勵過程),value function等知識點。ide
馬爾科夫獎勵過程在馬爾科夫過程的基礎上增長了獎勵R和衰減係數γ:<S,P,R,γ>。函數
R是一個獎勵函數。S狀態下的獎勵是某一時刻(t)處在狀態s下在下一個時刻(t+1)能得到的獎勵指望,以下:
這裏你們可能有疑問的是爲何 Rt+1而不是Rt,咱們更傾向於理解起來這至關於離開這個狀態才能得到獎勵而不是進入這個狀態即得到獎勵。視頻中也有學生請教了David。學習
David的回答:David指出這僅是一個約定,爲了在描述RL問題中涉及到的觀測O、行爲A、和獎勵R時比較方便。3d
他同時指出若是把獎勵改成Rt而不是Rt+1,只要規定好,本質上意義是相同的,在表述上能夠把獎勵描述爲「當進入某個狀態會得到相應的獎勵」。你們認爲是約定就好。code
詳細的定義以下:視頻
下圖是一個「馬爾科夫獎勵過程」圖示的例子,在「馬爾科夫過程」基礎上增長了針對每個狀態的獎勵。
blog
舉例說明:當學生處在第一節課(Class1)時,他/她參加第2節課(Class2)後得到的Reward是-1;同時進入到瀏覽facebook這個狀態中得到的Reward也是-1。ci
在瀏覽facebook這個狀態時,會有在下一時刻繼續瀏覽得到的Reward爲-1,返回到課堂內容上來的得到的Reward爲-1。深度學習
當學生進入到第二節課(Class2)時,繼續參加第三節課(Class3)得到的Reward爲-2,較進行Sleep的Reward爲-2。
當學生處於第三節課這個狀態時,他經過考試的Reward爲+10,進行到其它狀態的Reward也是一樣道理。
定義:收穫Gt爲在一個馬爾科夫獎勵鏈上從t時刻開始日後全部的獎勵的有衰減的收益總和。
定義公式以下:
關於Return的計算爲何須要 折扣係數。David給出了下面幾條的解釋:
價值函數給出了某一狀態或某一行爲的長期價值。
定義:一個馬爾科夫獎勵過程當中某一狀態的價值函數爲從該狀態開始的馬爾可夫鏈收穫的指望:
爲何會有指望符號,由於Gt咱們在上面說過,從t時刻到終止狀態的馬爾科夫鏈不止一條,每一條都有對應的機率和Return收益,因此對應的機率乘以相應的收益天然就會有指望符號,ppt以下:
咱們來看G1的例子:
上圖的計算其實就是對下面這個Markov Reward Process圖的計算:
咱們可以看出G1其實就有4條路徑了,每一條路徑都有對應的機率,那麼從咱們就能理解value function在評估某個狀態下的價值的時候,是須要加上指望符號的。
而上面這個例子若是計算value function爲(若是總共只有這四條路徑,而且每條的機率爲1/4):
v(s) = (-2.25+(-3.125)+(-3.41)+(-3.20))/4 =2.996
暫時總結到這,下一講總結Bellman Equation, Markov Decision Process等知識點~
參考:
David Silver深度強化學習課程
第2課 - 馬爾科夫決策過程葉強:《強化學習》第二講 馬爾科夫決策過程
馬爾科夫決策過程之Markov Processes(馬爾科夫過程)
【深度學習實戰】pytorch中如何處理RNN輸入變長序列padding
【機器學習基本理論】詳解最大後驗機率估計(MAP)的理解
歡迎關注公衆號學習交流~