強化學習極簡概述

時間 2021-01-20

標籤強化學習简体版

原文原文鏈接

1. 摘要通過對比有監督學習，來理解強化學習的基本思想。 2. 強化學習與有監督學習的區別在有監督學習中，我們通過建立「特徵->標籤」對，來訓練模型，從而讓模型學會解決分類、迴歸問題。但在強化學習中，我們沒有標籤，我們的Y值只是一個分數(reward)。通過這個分數，可以衡量模型所做決策（決策位於X中）的好壞。在gym環境中，the goal is always to increase y

>>阅读原文<<