強化學習筆記3

時間 2021-03-25

標籤強化學習简体版

原文原文鏈接

策略梯度 1、基本概念 policy（策略）：每一個actor中會有對應的策略，這個策略決定了actor的行爲。具體來說，Policy 就是給一個外界的輸入，然後它會輸出 actor 現在應該要執行的行爲。一般地，我們將policy寫成 π。 Return（回報）：一個回合（Episode）或者試驗（Trial）所得到的所有的reward的總和，也被人們稱爲Total reward。一般地，我

>>阅读原文<<