強化學習簡介

時間 2021-01-07

標籤機器學習简体版

原文原文鏈接

強化學習是機器想裏面非常重要的一個派別。智能體agent會不斷執行一些操作，通過結果來學習，在不同的環境中分別應該採取怎樣的行動。一些常見的算法如： Q學習，深度Q網絡 (DQN) ，策略梯度 (Policy Gradients) ，演員-評論家 (Actor-Critic) ，以及近端策略優化 (PPO)等。獎勵假說爲根基問題來了，目標爲什麼是預期累積獎勵最大化？因爲，強化學習原本就是建

>>阅读原文<<