人工智能教程 - 專業選修課程4.3.5 - 強化學習 5.馬爾科夫過程

馬爾科夫決策過程 Markov Decision Processes(MDP) MDP被描述成一個針對於強化學習的環境 Markov decision processes formally describe an environment for reinforcement learning 完全可觀察環境,我們在一個已知狀態下 Where the environment is fully obse
相關文章
相關標籤/搜索