1804.03235-Large scale distributed neural network training through online distillation.md

1804.03235-Large scale distributed neural network training through online distillation.md 現有分佈式模型訓練的模式 分佈式SGD 並行SGD: 大規模訓練中,一次的最長時間取決於最慢的機器 異步SGD: 不同步的數據,有可能導致權重更新向着未知方向 並行多模型 :多個集羣訓練不同的模型,再組合最終模型,但是會
相關文章
相關標籤/搜索