【David Silver-強化學習筆記】p2、馬爾科夫模型

時間 2020-12-23

標籤強化學習 #David Silver 简体版

原文原文鏈接

2.1 馬爾科夫過程 Markov decision process 是用來對環境建模的模型，這個環境是fully observable的，即便是partially observable也可以轉化爲MDP。所以在強化學習領域，幾乎所有的問題都可以轉化爲MDP模型。 2.1.1 Markov property 2.1.2 State Transition Matrix 假如agent有不同的狀態，可

>>阅读原文<<