學習筆記(05):決勝AI-強化學習實戰系列視頻課程-QLearning基本原理

立即學習:https://edu.csdn.net/course/play/4916/88701?utm_source=blogtoedu Q-Learning     獎勵設置(目標是能夠達到5):   (暫時設置: 除了能夠達到5的動作,都設置爲0)   通常每一行代表一個state, 每一列代表一個action -1,代表走不到那個地方 可以走到的地方,用獎勵來填充     做強化學習,第一
相關文章
相關標籤/搜索