關於強化學習的一些思考

時間 2019-12-10

原文原文鏈接

問1：加強學習的要素是什麼？答1：1)有限狀態集合S 2)有限動做集合A 3)轉移模型T,T(s,a,s')=P(s'|s,a) 狀態s採起動做a後，狀態轉移到s'的機率 4)即時獎勵R,R(s,a)=E[Rt+1|s,a] 問2：加強學習的最終結果是什麼？答2：1)最優的policy π 2)肯定型策略：a=π(s) 狀態s下采起肯定動做a 3)不肯定

>>阅读原文<<