DQN 原理(二):理解 DQN 中的「Q」

繼續討論 DQN(Deep Q Networks)。可能讀者對「Deep」和「Networks」已經有一定了解,但對「Q」 的含義不甚明朗。 本文仍然結合上一篇《DQN 原理(一):環境,行爲,觀測》和上上篇《利用 TensorFlow + Keras 玩 Atari 遊戲》的代碼及論文【1】進行學習和理解。 AI 在每個時刻 t,根據其觀測到的選擇一種行爲,用策略函數表示。 策略函數 實現從觀測
相關文章
相關標籤/搜索