強化學習筆記

強化學習是關於序列決策的一種工具。 基礎:監督學習和強化學習之間的區別在於,監督學習是提供指導性的反饋(loss)來解決問題,而強化學習是提供評估性反饋(該決策好不好,目標的達成程度)解決問題。 應用場景中:一個控制溫度的系統,指導性反饋沒卵用,那麼基於不同場地、時間來告訴系統該如何溫度?採用評估性反饋,我們可以獲得特定時間特定地點在歷史中的電量,溫度,或者過熱過冷的機器數等反饋數據 強化學習的前
相關文章
相關標籤/搜索