【深度強化學習一】Q-Learning初識（1）（李宏毅老師學習視頻筆記）

時間 2021-01-12

標籤深度強化學習简体版

原文原文鏈接

首先放視頻鏈接：李宏毅老師深度強化學習課程——Q-Learning Q-Learning簡介 Q-Learning是一種value-based的方法，在這種方法中，不是直接學習policy，而是利用值函數評價現在行爲的好壞，即AC算法中的critic。比如state value function，表示在當前策略下，到了某一狀態s，之後能獲得的累計收益。兩種更新方法（MC和TD） Monte-Ca

>>阅读原文<<