分佈式深度學習DDL解析

分佈式深度學習DDL解析 一.概述 給一個龐大的GPU集羣,在實際的應用中,現有的大數據調度器會導致長隊列延遲和低的性能,該文章提出了Tiresias,即一個GPU集羣的調度器,專門適應分佈式深度學習任務,該調度器能夠有效率的調度並且合適地放置深度學習任務以減少他們的任務完成時間(JCT(Job Completion Time)),一個深度學習任務執行的時間通常是不可預知的,該文章提出兩種調度算法
相關文章
相關標籤/搜索