李宏毅學習筆記23.Deep Reinforcement Learning

時間 2020-12-20

原文原文鏈接

文章目錄前言 Overview概述小栗子 play Go Supervised v.s. Reinforcement 另外一個栗子：玩遊戲（Warning of Game）難點小結本節要點 Policy-based Approach: Learning an Actor 步驟一：Neural Network as Actor 步驟二：Goodness of Actor 步驟三：Pick t

>>阅读原文<<