Deep Q-learning

推自己的github,邊學邊寫,有RL,DL的一些小實驗,訓練機器走迷宮之類的小遊戲,有興趣可以玩玩 傳送門 Q-learning作爲典型的value-based algorithm,訓練出來的是critic(並不直接採取行爲,評價現在的行爲有多好),因此提出了state value function的概念,方便對每個狀態進行評估 Policy-based是不斷的增加reward高的行爲發生的概率
相關文章
相關標籤/搜索