【深度強化學習 一】Q-Learning初識(1)(李宏毅老師學習視頻筆記)

首先放視頻鏈接:李宏毅老師深度強化學習課程——Q-Learning Q-Learning簡介 Q-Learning是一種value-based的方法,在這種方法中,不是直接學習policy,而是利用值函數評價現在行爲的好壞,即AC算法中的critic。比如state value function,表示在當前策略下,到了某一狀態s,之後能獲得的累計收益。 兩種更新方法(MC和TD) Monte-Ca
相關文章
相關標籤/搜索