Pytorch多GPU並行Bug收集(長期):KeyError: Caught KeyError in replica *[device_id] on device *[device_id].

在單卡訓練順利的前提下,修改爲多卡訓練,可謂bug多多 今天用pytorch 多GPU並行訓練時,在最後一個step的時候報錯了, KeyError: Caught KeyError in replica 5 on device 5. 如圖所示 我們可以看到,代碼處應該是沒有問題的,經過我的計算,利用train的總量/batch_size-->16100/24=670---餘20,無法整除,這下有
相關文章
相關標籤/搜索