李弘毅深度強化學習筆記【1 Policy Gradient 】

強化學習得三個主要要素:actor(智能體本身),env(環境),reward function(獎勵) 但是環境我們是無法改變得,reward我們也無法改變,唯一可以改變得是智能體得動作 智能體得策略:策略Π就是智能體在環境s得情況下選擇行動a的概率 在policy gradient的算法中,我們用神經網絡來擬合策略policy。神經網絡的參數。 神經網絡的輸入是機器的觀測值(可以用向量表示,也
相關文章
相關標籤/搜索