《強化學習》模型無關方法

時間 2021-01-06

原文原文鏈接

模型無關學習 Monte-Carlo & Temporal Difference; Q-learning 探索與利用 on-policy 和 off-policy SARSA Expected value SARSA SARSA和Q-Learning對比 on-policy和off-policy對比 on-policy off-policy Agent 可以選擇動作 Agent 不能選擇動作 M

>>阅读原文<<