強化學習簡介

強化學習是機器想裏面非常重要的一個派別。智能體agent會不斷執行一些操作,通過結果來學習,在不同的環境中分別應該採取怎樣的行動。 一些常見的算法如: Q學習,深度Q網絡 (DQN) ,策略梯度 (Policy Gradients) ,演員-評論家 (Actor-Critic) ,以及近端策略優化 (PPO)等。 獎勵假說爲根基 問題來了,目標爲什麼是預期累積獎勵最大化? 因爲,強化學習原本就是建
相關文章
相關標籤/搜索