【轉載】David Silver公開課7——Policy Gradient

時間 2020-12-29

原文原文鏈接

本文是David Silver強化學習公開課第七課的總結筆記。這一課主要講了將policy看成某個參數hetaheta的函數，即將policy形式變成狀態和動作的概率分佈函數，在policy函數可微的情況下能夠通過對參數求導來優化policy。【轉載請註明出處】chenrudan.github.io 本文是David Silver強化學習公開課第七課的總結筆記。這一課主要講了將policy看成某

>>阅读原文<<