強化學習與DQN

在Q-learning中很重要的一點,是要去預估未來收益,所以在離散情況下,一般用的是table-based Q-learning算法。它會給出一張表,不斷去迭代,直到這張表收斂穩定。當狀態空間太大,例如圍棋和遊戲,就要用深度神經網絡。 強化學習存在的兩點問題: 1.信用分配問題(credit assignment problem) 擊中磚塊並且得分和前一時刻如何移動橫杆沒有直接關係;前面某一時刻
相關文章
相關標籤/搜索