David Silver強化學習課程筆記（七）

時間 2020-12-23

原文原文鏈接

第七課：策略梯度方法最近在瞎忙，以致於離上一篇本專欄博客已經過去三個月了，春節在家準備寫一寫，又因爲懶而沒有下筆，今天是放假最後一天，所以準備安慰安慰自己，至少一個假期得做了點東西對吧，哈哈，不過我是認真寫的，下面我們開始本課的介紹。本文主要介紹策略梯度方法，它是策略搜索方法的一種。我們將從Policy-Based RL的優勢進行引入，重點介紹score fun

>>阅读原文<<