學習筆記(05):決勝AI-強化學習實戰系列視頻課程-QLearning基本原理

時間 2021-01-12

原文原文鏈接

立即學習:https://edu.csdn.net/course/play/4916/88701?utm_source=blogtoedu Q-Learning 獎勵設置（目標是能夠達到5）：（暫時設置：除了能夠達到5的動作，都設置爲0）通常每一行代表一個state, 每一列代表一個action -1，代表走不到那個地方可以走到的地方，用獎勵來填充做強化學習，第一

>>阅读原文<<