深度強化學習-筆記02

時間 2021-01-21

原文原文鏈接

這次的任務我個人認爲還是比較多的，很多涉及數學公式的內容，推公式就比較難。 1.馬爾可夫決策過程(MDP) 這裏先介紹強化學習中agent與environment的交互過程，如下圖： agent在得到環境的狀態過後，它會採取行爲，它會把這個採取的行爲返還給環境。環境在得到agent的行爲過後，它會進入下一個狀態，把下一個狀態傳回agent。這個交互的過程是可以通過MDP來表示的。在在馬爾可夫決策過

>>阅读原文<<