【轉載】David Silver公開課7——Policy Gradient

本文是David Silver強化學習公開課第七課的總結筆記。這一課主要講了將policy看成某個參數hetaheta的函數,即將policy形式變成狀態和動作的概率分佈函數,在policy函數可微的情況下能夠通過對參數求導來優化policy。 【轉載請註明出處】chenrudan.github.io 本文是David Silver強化學習公開課第七課的總結筆記。這一課主要講了將policy看成某
相關文章
相關標籤/搜索