學習筆記:強化學習在機器人中的應用

學習地址 1 馬爾可夫決策過程 價值函數和行爲價值函數 價值函數的遞歸性質 隨機策略、確定性策略 二、算法:Policy Iteration策略迭代、價值迭代 策略迭代 價值迭代 三 無模型強化學習Model-free RL 紅白機遊戲
相關文章
相關標籤/搜索