horovod + tf.train.CheckpointSaverHook

最近在做分佈式模型訓練相關工作,利用到了horovod框架,當horovod+tf.train.MonitoredTrainingSession+tf.train.CheckpointSaverHook時,會出現horovod rank搶佔之類的報錯。並且在log中多次出現Create CheckpointSaverHook的信息。 並且由於MonitoredTrainingSession的重啓機
相關文章
相關標籤/搜索