【2017CS231n】第十四講：深度增強學習

時間 2021-01-12

原文原文鏈接

一.概述強化學習：我們有一個代理，能夠在其環境中採取行動，也可以因爲其行動獲得獎勵，它的目標是學會如何行動以最大限度地獲得獎勵。這節主要講了以下幾個問題：什麼是強化學習，馬爾科夫決策過程（這是對強化學習問題的數學抽象），然後是兩類主要的強化學習算法：Q-learning，策略梯度算法。二.強化學習在強化學習中我們有一個代理和一個環境，環境賦予代理一個狀態，反過來

>>阅读原文<<