【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.4】基於策略梯度求解RL

時間 2021-01-10

標籤深度學習強化學習算法简体版

原文原文鏈接

一、學習內容 4.基於策略梯度求解RL 4.1隨機策略與策略梯度先來複習一下之前講的value-based和policy-based的RL方法： Policy-based的方法可直接輸出動作的概率，比較適用於隨機性策略具體來說就是在網絡裏面使用常見的softmax函數爲了方便大家理解，這裏舉個Pong遊戲的例子：策略是一個episode完了才能評估的，目的是爲了讓總的Reward儘可能大：

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。