第五章 模型和訓練 | 強化學習模型

第五章 模型和訓練 1、強化學習模型 強化學習(Reinforcement Learning)是讓計算機實現在特定的情況下,通過不斷地嘗試,從錯誤中學習,最後找到規律,找到可以獲得最大回報的行爲。強化學習有四個基本組件,包括輸入:環境(States),動作(Actions),回報(Rewards)以及輸出:方案(Policy)。和監督學習不同,強化學習沒有確定的標籤,需要機器自己摸索,每一個動作對
相關文章
相關標籤/搜索