PaddlePaddle飛槳強化學習7日打卡營-Day2

跟隨百度6.19日開課的強化學習7日打卡營,入門強化學習。第二課是表格型方法求解RL問題。   Day 2. 基於表格型方法求解RL 強化學習中的智能體agent通過和環境env交互,執行動作action獲得反饋reward,逐步學習完善任務執行策略。 在某狀態state下執行動作action,得到反饋reward;但複雜任務是一個序列決策任務,需要執行一系列action,以完成任務獲得最高的最終
相關文章
相關標籤/搜索