強化學習筆記3

策略梯度 1、基本概念 policy(策略): 每一個actor中會有對應的策略,這個策略決定了actor的行爲。具體來說,Policy 就是給一個外界的輸入,然後它會輸出 actor 現在應該要執行的行爲。一般地,我們將policy寫成 π。 Return(回報): 一個回合(Episode)或者試驗(Trial)所得到的所有的reward的總和,也被人們稱爲Total reward。一般地,我
相關文章
相關標籤/搜索