David Silver強化學習筆記-intro_RL

時間 2020-12-29

標籤強化學習简体版

原文原文鏈接

David Silver強化學習筆記-intro_RL 一、關於RL （一）強化學習的特徵強化學習和其他機器學習的不同之處：沒有監督者，只有一個reward標誌反饋有延遲，不是馬上得到時間很重要（序列）監督學習時將獨立同分布的數據進行學習，而強化學習的數據是有序列的。 agent的actions影響着隨後接收到的數據。我們需要應對的是一個動態系統，agent和外部環境進行交互，每一步都

>>阅读原文<<