強化學習7日打卡營-Policy Gradient/DDPG

基於策略梯度方法求解RL value-based vs policy-based Value-based 是基於價值的,屬於一種確定性策略 在計算時優化Q的值然後把Q網絡調到最優以後用間接方式輸出action,屬於確定性的策略。 policy-based 是基於策略的,屬於一種隨機策略 policy-based使用神經網絡擬合直接輸出動作1概率,適用於隨機性比較大的環境。 Softmax函數 把多
相關文章
相關標籤/搜索