強化學習-策略梯度

時間 2021-01-11

原文原文鏈接

從現在開始，進行一系列的強化學習筆記，課程主要是結合David Silver 和李宏毅老師的課程。 David Silver 課程偏理論，而且我個人覺得講的不是很透徹，對比李宏毅老師的課程就講的非常深入淺出了。這節，我們來看看策略梯度算法。在這裏是狀態作爲輸入，動作作爲輸出，如上圖所示以給定的策略，我們可以生成一個episode數據（狀態1，動作1，狀態2，動作2…）對於一個episod

>>阅读原文<<