強化學習7日打卡營-Policy Gradient/DDPG

時間 2020-12-28

原文原文鏈接

基於策略梯度方法求解RL value-based vs policy-based Value-based 是基於價值的，屬於一種確定性策略在計算時優化Q的值然後把Q網絡調到最優以後用間接方式輸出action，屬於確定性的策略。 policy-based 是基於策略的，屬於一種隨機策略 policy-based使用神經網絡擬合直接輸出動作1概率，適用於隨機性比較大的環境。 Softmax函數把多

>>阅读原文<<