區分Model-free和Model-based方法

強化學習方法分爲Model-free和Model-based方法,那麼這兩種方法的區別在哪:算法 首先咱們定義強化學習中的馬爾可夫決策過程MDP,用四元組表示<S,A,R,T><S,A,R,T>:函數 SS:環境的狀態空間 AA:agent可選擇的動做空間 R(s,a)R(s,a):獎勵函數,返回的值表示在ss狀態下執行aa動做的獎勵 T(s′|s,a)T(s′|s,a): 狀態轉移機率函數,表示
相關文章
相關標籤/搜索