七月算法強化學習 第三課 學習筆記

Unknown Environment MDP Control 基本思路:廣義策略迭代(策略評估+策略改進) 如何保證每個狀態行爲對(Q,a)都可以被訪問到? 確保歷經每個狀態行爲對, π(a|s) > 0 for all a, s 每次迭代確保 π’≥π(回顧policy ordering) 實時在線決策: 1)ExploitaAon:基於之前所有的信息做出最優選擇&收集更多信息 2)最好的長遠
相關文章
相關標籤/搜索