第十四講--深度增強學習

時間 2021-01-02

原文原文鏈接

增強學習：通過agent和environment交互公式化： Markov property: 未來與過去無關，只取決於現在（前提是現在充分可觀測）由於含有隨機性，採用最大化期望值來確定pi value function：給定初始態，reward的加權期望值 Q value function：給定初始態和初始行爲，reward的加權期望值 --------------------------

>>阅读原文<<