UCBerkeley 深度強化學習-強化學習簡介Lec4

時間 2021-01-09

標籤深度學習人工智能強化學習概率論简体版

原文原文鏈接

課程內容簡介強化學習算法幾種強化學習方法的比較簡介 Part ♡1 MDPS POMDPS（部分可觀測） Part ♡2 其中θ是策π略的參數，強化學習爲了使得在當前狀態st和當前選擇的行爲at的情況下的條件概率最大，則需要使得策略π最大，那麼需要找到使得π最大的θ。有限時間情況下無限時間情況下所以，在無限和有限的情況下的參數優化方式： Part ♡3 強化學習關係期望！獎勵函數r

>>阅读原文<<