強化學習-策略梯度

從現在開始,進行一系列的強化學習筆記,課程主要是結合David Silver 和 李宏毅老師的課程。 David Silver 課程偏理論,而且我個人覺得講的不是很透徹,對比李宏毅老師的課程就講的非常深入淺出了。 這節,我們來看看策略梯度算法。 在這裏是狀態作爲輸入,動作作爲輸出,如上圖所示 以給定的策略,我們可以生成一個episode數據(狀態1,動作1,狀態2,動作2…) 對於一個episod
相關文章
相關標籤/搜索