【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.4】基於策略梯度求解RL

一、學習內容 4.基於策略梯度求解RL 4.1隨機策略與策略梯度 先來複習一下之前講的value-based和policy-based的RL方法: Policy-based的方法可直接輸出動作的概率,比較適用於隨機性策略 具體來說就是在網絡裏面使用常見的softmax函數 爲了方便大家理解,這裏舉個Pong遊戲的例子: 策略是一個episode完了才能評估的,目的是爲了讓總的Reward儘可能大:
相關文章
相關標籤/搜索