《Reinforcement Learning》讀書筆記 2：多臂老虎機（Multi-armed Bandits）

時間 2021-01-13

標籤強化學習讀書筆記 reinforcement learning 多臂老虎機简体版

原文原文鏈接

《Reinforcement Learning: An Introduction》讀書筆記 - 目錄 Reinforcement Learning 和 Supervised Learning 的區別 evaluate vs instruct 也就是說，RL的對於每一個action的效果不是非黑即白的，而是在每一次的action之後都可能不一樣的後果（feedback, reward）非iid，

>>阅读原文<<