策略梯度

在看師兄的論文時,裏面涉及到強化學習的 Policy Gradient 。看了網上好多博客,覺得公式推導太複雜了,斷斷續續地持續了三週。今天靜下心來看了一遍,發現沒有那麼難,果然做學術還是不能浮躁啊! 前言 強化學習是機器學習的一個分支,但是它與我們常見監督式學習不太一樣。從學習方式上講強化學習更加接近人類的學習,例如當你接觸一款新的電子遊戲的時候,雖然看不懂屏幕的提示,但是經過自己的摸索也能掌握
相關文章
相關標籤/搜索