【2017CS231n】第十四講:深度增強學習

一.概述     強化學習:我們有一個代理,能夠在其環境中採取行動,也可以因爲其行動獲得獎勵,它的目標是學會如何行動以最大限度地獲得獎勵。       這節主要講了以下幾個問題:什麼是強化學習,馬爾科夫決策過程(這是對強化學習問題的數學抽象),然後是兩類主要的強化學習算法:Q-learning,策略梯度算法。 二.強化學習     在強化學習中我們有一個代理和一個環境,環境賦予代理一個狀態,反過來
相關文章
相關標籤/搜索