強化學習(RL)基本概念

強化學習不像監督學習那樣有自己明確的目標,強化學習可以看成是一個記分的系統,記住及其獲得低分和高分的行爲,然後不斷要求機器能取得高分的同時避免低分。你也可以把它當成分數導向的系統,跟監督學習的標籤一樣。 整個強化學習系統由智能體(Agent)、觀察(Observation)、獎賞(Reward)、動作(Action)和環境(Environment)五部分組成,系統示意圖如下圖所示。 我們根據環境將
相關文章
相關標籤/搜索