強化學習極簡概述

1. 摘要 通過對比有監督學習,來理解強化學習的基本思想。 2. 強化學習與有監督學習的區別 在有監督學習中,我們通過建立「特徵->標籤」對,來訓練模型,從而讓模型學會解決分類、迴歸問題。 但在強化學習中,我們沒有標籤,我們的Y值只是一個分數(reward)。通過這個分數,可以衡量模型所做決策(決策位於X中)的好壞。 在gym環境中,the goal is always to increase y
相關文章
相關標籤/搜索