強化學習：DQN的理解

時間 2021-01-02

原文原文鏈接

分類目錄——強化學習還是根據Q(s, a)值來進行動作判斷的一種機制傳統的Q-Learning強化學習會生成一個狀態動作的組合表，通過一輪輪的迭代使這個表格收斂。 **問題：**現實中的活動往往狀態空間很大，比如下圍棋，理論上Q表的矩陣要達到（19**2）*（19**2）的規模，存儲這麼一個表格是一個問題，學習並讓這個表格收斂更是一個大問題。 ——如果能有一個公式能通過輸入當前的狀態和動作參量

>>阅读原文<<