馬爾科夫過程

在概率論和統計學中,馬爾可夫決策過程提供了一個數學架構模型,用於面對部分隨機、部分可由決策者控制的狀態下,如何進行決策,以俄羅斯數學家安德雷·馬爾可夫的名字命名。 0.引例    假設我們有一個機器人處於狀態 s1s1, 它有多種動作選擇可以到達終止狀態 stst, 但是執行每個動作所帶來的收益不一樣。這時,我們需要做一個算法來幫助機器人選擇動作序列,來保證到達終止狀態 stst 時收益最高,這時
相關文章
相關標籤/搜索