DRL(二)—— RL簡介

RL Structure RL中基本包括三個部分,如下圖: Model-Based RL 在model-based RL裏,綠格子裏是預判下一個狀態St+1。橙色格子依然是產生樣本,綠色格子是利用這些樣本去產生一個fφ,利用這個函數,可以預測下一個狀態。用樣本使這個函數越來越擬合。 這樣可以得到一個確定的policy,a deterministic policy,在確定的環境中可以工作的較好,但是
相關文章
相關標籤/搜索