DRL---------DQN詳解

總結一下DQN. 在傳統的強化學習中,例如Q_learning以及Sarsa都需要一張由狀態S以及行爲A組成的Q表,行爲的種類一般較少,比如常見的前進後退兩種或上下左右四種等,也就是Q表的列一般還好,可是狀態的話就不一定了,有些場景的狀態多到可怕,就比如圍棋等等,也就是Q表的行數過多,導致的結果就是難以維護如此大的一張Q表。 現在假設有一個函數 f(x) 如果輸入狀態S就可以得到每個行爲的Q值即
相關文章
相關標籤/搜索