關於強化學習的一些思考

問1:加強學習的要素是什麼? 答1:1)有限狀態集合S     2)有限動做集合A     3)轉移模型T,T(s,a,s')=P(s'|s,a) 狀態s採起動做a後,狀態轉移到s'的機率     4)即時獎勵R,R(s,a)=E[Rt+1|s,a] 問2:加強學習的最終結果是什麼? 答2:1)最優的policy π     2)肯定型策略:a=π(s) 狀態s下采起肯定動做a     3)不肯定
相關文章
相關標籤/搜索