馬爾可夫決策過程

定義  一個很簡單的只有3個狀態和2個動作的MDP例子。一個馬爾可夫決策過程是一個4 - 元組 ,其中                      S是狀態的有限集合,                      A是動作的有限集合(或者,As是處於狀態s下可用的一組動作的有限集合),                     表示 t時刻的動作 a 將導致馬爾可夫過程由狀態 s 在t+1 時刻轉變到狀
相關文章
相關標籤/搜索