強化學習（RL）基本概念

時間 2021-01-13

標籤深度學習简体版

原文原文鏈接

強化學習不像監督學習那樣有自己明確的目標，強化學習可以看成是一個記分的系統，記住及其獲得低分和高分的行爲，然後不斷要求機器能取得高分的同時避免低分。你也可以把它當成分數導向的系統，跟監督學習的標籤一樣。整個強化學習系統由智能體（Agent）、觀察（Observation）、獎賞（Reward）、動作（Action）和環境（Environment）五部分組成，系統示意圖如下圖所示。我們根據環境將

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。