強化學習筆記

時間 2020-12-30

標籤強化學習简体版

原文原文鏈接

強化學習是關於序列決策的一種工具。基礎：監督學習和強化學習之間的區別在於，監督學習是提供指導性的反饋（loss）來解決問題，而強化學習是提供評估性反饋（該決策好不好，目標的達成程度）解決問題。應用場景中：一個控制溫度的系統，指導性反饋沒卵用，那麼基於不同場地、時間來告訴系統該如何溫度？採用評估性反饋，我們可以獲得特定時間特定地點在歷史中的電量，溫度，或者過熱過冷的機器數等反饋數據強化學習的前

>>阅读原文<<