SEED RL:大規模分佈式強化學習框架

SEED RL:Scalable, Efficient Deep-RL,每秒處理數百萬張圖片的分佈式強化學習框架。 目錄 基本架構 學習過程 總結  基本架構 Actor由大量CPUs組成,只進行環境交互,不再進行推理採樣。 Learner由GPU組成,高度的算力集中,完成推理採樣、數據存儲及學習訓練。 基本結構和GA3C很相似。 學習過程 整體採用批處理機制,批量採樣、批量學習。 Inferen
相關文章
相關標籤/搜索