【David Silver-強化學習筆記】p2、馬爾科夫模型

2.1 馬爾科夫過程 Markov decision process 是用來對環境建模的模型,這個環境是fully observable的,即便是partially observable也可以轉化爲MDP。所以在強化學習領域,幾乎所有的問題都可以轉化爲MDP模型。 2.1.1 Markov property 2.1.2 State Transition Matrix 假如agent有不同的狀態,可
相關文章
相關標籤/搜索