使用分佈式框架horovod 未能提升加速訓練

時間 2020-12-24

原文原文鏈接

使用分佈式框架horovod ，初步使用了單機多卡，跑測的estimator，數據集大概十幾個分類，1萬張照照片，調用4個gpu 從圖裏看出訓練時長17個小時左右，與之前單機單卡訓練時長和準確率沒有太大區別，浪費資源啊！看了horvord的訓練模式，分別起了4個進程，而不是一個進程該操作與TF 的experimental.MultiWorkerMirroredStrategy操作用法

>>阅读原文<<