Deep Reinforcement Learning(深度強化學習)基礎

強化學習分類 Policy-based or value-based 強化學習兩大類,Policy-Based(Policy Gradients) Value-Based(Q-Learning)。Policy-Based直接預測環境狀態下應採取Action,Value-Based預測環境狀態下所有Action期望價值(Q值),選擇Q值最高Action執行。Value-Based適合少量離散取值Ac
相關文章
相關標籤/搜索