《強化學習》 模型無關方法

模型無關學習 Monte-Carlo & Temporal Difference; Q-learning 探索與利用 on-policy 和 off-policy SARSA Expected value SARSA SARSA和Q-Learning對比 on-policy和off-policy對比 on-policy off-policy Agent 可以選擇動作 Agent 不能 選擇動作 M
相關文章
相關標籤/搜索