DRL筆記系列一

參考鏈接 基本概念 trial and error DRL=RL+deep_learning on-policy:所有數據都是當前agent與env交互後產生的,訓練時不使用old data,即不使用以前agent產生的數據 缺點:these algorithms works weaker on sample efficiency 優點:these algorithms directly opti
相關文章
相關標籤/搜索