強化學習與DQN

時間 2021-01-02

原文原文鏈接

在Q-learning中很重要的一點，是要去預估未來收益，所以在離散情況下，一般用的是table-based Q-learning算法。它會給出一張表，不斷去迭代，直到這張表收斂穩定。當狀態空間太大，例如圍棋和遊戲，就要用深度神經網絡。強化學習存在的兩點問題： 1.信用分配問題(credit assignment problem) 擊中磚塊並且得分和前一時刻如何移動橫杆沒有直接關係；前面某一時刻

>>阅读原文<<