強化學習之Q_lerning實現。

時間 2021-01-12

原文原文鏈接

強化學習之Q_lerning: Q-Learning算法學習 Q-Learning算法下，目標是達到目標狀態(Goal State)並獲取最高收益，一旦到達目標狀態，最終收益保持不變。因此，目標狀態又稱之爲吸收態。 Q-Learning算法下的agent，不知道整體的環境，知道當前狀態下可以選擇哪些動作。通常，我們需要構建一個即時獎勵矩陣R，用於表示從狀態s到下一個狀態s’的動作獎勵值。由即時

>>阅读原文<<