強化學習入門（一）：什麼是Policy Gradient

時間 2021-01-02

標籤 # 強化學習強化學習简体版

原文原文鏈接

一、強化學習基礎認知 1、強化學習三要素 1、actor (即policy gradient要學習的對象, 是我們可以控制的部分) 2、環境 environment (給定的，無法控制) 3、回報函數 reward function (無法控制) 2、名詞介紹 Policy of actor π \omicron（決策）: 如下圖（本文圖片均來自於李宏毅的強化學習課件，其視頻內容可點擊此處查看）所

>>阅读原文<<