李弘毅深度強化學習筆記【1 Policy Gradient 】

時間 2021-01-02

原文原文鏈接

強化學習得三個主要要素：actor（智能體本身），env（環境），reward function（獎勵）但是環境我們是無法改變得，reward我們也無法改變，唯一可以改變得是智能體得動作智能體得策略：策略Π就是智能體在環境s得情況下選擇行動a的概率在policy gradient的算法中，我們用神經網絡來擬合策略policy。神經網絡的參數。神經網絡的輸入是機器的觀測值（可以用向量表示，也

>>阅读原文<<