David Silver強化學習課程筆記(七)

第七課:策略梯度方法         最近在瞎忙,以致於離上一篇本專欄博客已經過去三個月了,春節在家準備寫一寫,又因爲懶而沒有下筆,今天是放假最後一天,所以準備安慰安慰自己,至少一個假期得做了點東西對吧,哈哈,不過我是認真寫的,下面我們開始本課的介紹。         本文主要介紹策略梯度方法,它是策略搜索方法的一種。我們將從Policy-Based RL的優勢進行引入,重點介紹score fun
相關文章
相關標籤/搜索