UCBerkeley 深度強化學習-強化學習簡介Lec4

課程內容 簡介 強化學習算法 幾種強化學習方法的比較 簡介 Part ♡1 MDPS POMDPS(部分可觀測) Part ♡2 其中θ是策π略的參數,強化學習爲了使得在當前狀態st和當前選擇的行爲at的情況下的條件概率最大,則需要使得策略π最大,那麼需要找到使得π最大的θ。 有限時間情況下 無限時間情況下 所以,在無限和有限的情況下的參數優化方式: Part ♡3 強化學習關係期望! 獎勵函數r
相關文章
相關標籤/搜索