強化學習入門(一):什麼是Policy Gradient

一、強化學習基礎認知 1、強化學習三要素 1、actor (即policy gradient要學習的對象, 是我們可以控制的部分) 2、環境 environment (給定的,無法控制) 3、回報函數 reward function (無法控制) 2、名詞介紹 Policy of actor π \omicron(決策): 如下圖(本文圖片均來自於李宏毅的強化學習課件,其視頻內容可點擊此處查看)所
相關文章
相關標籤/搜索