Apollo:雲規模計算的可擴展協同調度

摘要 在雲規模的計算羣集上有效地調度數據並行計算作業對於作業性能、系統吞吐量和資源利用率至關重要。隨着集羣規模和具有各種特徵的更復雜的workload的增長,這變得越來越具有挑戰性。本文介紹了Apollo,這是一種高度可擴展協同調度框架,已部署到Microsoft的生產集羣上,可每天高效地在數萬臺計算機上調度數以千計的計算(數百萬個任務)。該框架通過鬆散協調的機制利用全局羣集信息以分佈式方式執行調
相關文章
相關標籤/搜索