七月算法強化學習第三課學習筆記

時間 2020-12-29

原文原文鏈接

Unknown Environment MDP Control 基本思路：廣義策略迭代（策略評估＋策略改進）如何保證每個狀態行爲對(Q,a)都可以被訪問到？確保歷經每個狀態行爲對, π(a|s) > 0 for all a, s 每次迭代確保 π’≥π（回顧policy ordering）實時在線決策： 1）ExploitaAon:基於之前所有的信息做出最優選擇&收集更多信息 2）最好的長遠

>>阅读原文<<