強化學習概念理解

時間 2021-01-12

原文原文鏈接

一、基本理解強化學習是智能體(Agent)以「試錯」的方式進行學習，通過與環境進行交互獲得的獎勵指導行爲，目標是使智能體獲得最大的獎勵。所謂強化學習，是指從環境狀態到行爲映射的學習，以使系統行爲從環境中獲得的累積Reward(獎勵值)最大。在強化學習中，算法來把外界環境轉化爲最大化獎勵量的方式的動作，算法並沒有直接告訴Agent(行爲主體)要做什麼或者要採取哪個動作，而是Agent通

>>阅读原文<<