機器學習（十四）——強化學習

時間 2021-01-13

標籤機器學習简体版

原文原文鏈接

14 強化學習 1 馬爾科夫決策過程(MDP) 一個馬爾可夫決策過程（Markov decision process）由一個元組（tuple） ( S , A , { P s a } , γ , R ) (S, A, \{P_{sa}\}, \gamma, R) (S,A,{Psa},γ,R)組成，其中元素分別爲： S S S 是一個狀態集合（a set of states）。（例如，在無人直升

>>阅读原文<<