《強化學習》基於策略的方法

基於策略RL和基於值函數RL 直覺 不同種類的策略 策略梯度形式 LOG技巧 REINFORCE with baseline Actor-Critic Advantage Actor Critic policy based 和 Value based A3C 結合監督學習和強化學習
相關文章
相關標籤/搜索