第十四講--深度增強學習

增強學習: 通過agent和environment交互 公式化: Markov property: 未來與過去無關,只取決於現在(前提是現在充分可觀測) 由於含有隨機性,採用最大化期望值來確定pi value function:給定初始態,reward的加權期望值 Q value function:給定初始態和初始行爲,reward的加權期望值 --------------------------
相關文章
相關標籤/搜索