機器學習(十四)——強化學習

14 強化學習 1 馬爾科夫決策過程(MDP) 一個馬爾可夫決策過程(Markov decision process)由一個元組(tuple) ( S , A , { P s a } , γ , R ) (S, A, \{P_{sa}\}, \gamma, R) (S,A,{Psa​},γ,R)組成,其中元素分別爲: S S S 是一個狀態集合(a set of states)。(例如,在無人直升
相關文章
相關標籤/搜索