強化學習之Q_lerning實現。

強化學習之Q_lerning: Q-Learning算法學習 Q-Learning算法下,目標是達到目標狀態(Goal State)並獲取最高收益,一旦到達目標狀態,最終收益保持不變。因此,目標狀態又稱之爲吸收態。 Q-Learning算法下的agent,不知道整體的環境,知道當前狀態下可以選擇哪些動作。 通常,我們需要構建一個即時獎勵矩陣R,用於表示從狀態s到下一個狀態s’的動作獎勵值。 由即時
相關文章
相關標籤/搜索