David Silver強化學習筆記-intro_RL

David Silver強化學習筆記-intro_RL 一、關於RL (一)強化學習的特徵 強化學習和其他機器學習的不同之處: 沒有監督者,只有一個reward標誌 反饋有延遲,不是馬上得到 時間很重要(序列) 監督學習時將獨立同分布的數據進行學習,而強化學習的數據是有序列的。 agent的actions影響着隨後接收到的數據。 我們需要應對的是一個動態系統,agent和外部環境進行交互,每一步都
相關文章
相關標籤/搜索