學習筆記(07):決勝AI-強化學習實戰系列視頻課程-QLearning迭代效果

立即學習:https://edu.csdn.net/course/play/4916/88703?utm_source=blogtoedu Q-Learning過程2     此時,Q{1,3}, Q{1,5}進行比較之後,最大值是100. (因爲第一步已經更新過Q{1,5})。 經過更多迭代之後:Q-table會變成:     左面會把它Normalize之後,再乘以100   當兩個Q val
相關文章
相關標籤/搜索