學習筆記(06):決勝AI-強化學習實戰系列視頻課程-QLearning迭代計算實例

時間 2021-01-12

原文原文鏈接

立即學習:https://edu.csdn.net/course/play/4916/88702?utm_source=blogtoedu Q-learning迭代計算實例 Rs_a表示即時獎勵 1，設計獎懲矩陣從一個狀態開始，直到它達到終止狀態，稱爲1個episode. 實例計算：因爲最開始Q初始化的都是0，所以一開始, 對於下一個動作的獎勵計算時，使用的是max

>>阅读原文<<