深度強化學習-筆記02

這次的任務我個人認爲還是比較多的,很多涉及數學公式的內容,推公式就比較難。 1.馬爾可夫決策過程(MDP) 這裏先介紹強化學習中agent與environment的交互過程,如下圖: agent在得到環境的狀態過後,它會採取行爲,它會把這個採取的行爲返還給環境。環境在得到agent的行爲過後,它會進入下一個狀態,把下一個狀態傳回agent。這個交互的過程是可以通過MDP來表示的。在在馬爾可夫決策過
相關文章
相關標籤/搜索