強化學習:DQN的理解

分類目錄——強化學習 還是根據Q(s, a)值來進行動作判斷的一種機制 傳統的Q-Learning強化學習會生成一個狀態動作的組合表,通過一輪輪的迭代使這個表格收斂。 **問題:**現實中的活動往往狀態空間很大,比如下圍棋,理論上Q表的矩陣要達到(19**2)*(19**2)的規模,存儲這麼一個表格是一個問題,學習並讓這個表格收斂更是一個大問題。 ——如果能有一個公式能通過輸入當前的狀態和動作參量
相關文章
相關標籤/搜索