區分Model-free和Model-based方法

時間 2020-07-23

標籤區分 model free based 方法简体版

原文原文鏈接

強化學習方法分爲Model-free和Model-based方法，那麼這兩種方法的區別在哪：算法首先咱們定義強化學習中的馬爾可夫決策過程MDP，用四元組表示<S,A,R,T><S,A,R,T>：函數 SS：環境的狀態空間 AA：agent可選擇的動做空間 R（s，a）R（s，a）：獎勵函數，返回的值表示在ss狀態下執行aa動做的獎勵 T(s′|s,a)T(s′|s,a): 狀態轉移機率函數，表示

>>阅读原文<<