分佈式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

時間 2019-12-06

標籤分佈式 tensorflow distribution strategy api google 開發者大會欄目系統架構简体版

原文原文鏈接

Google 開發者大會 (Google Developer Days，簡稱 GDD) 是展現 Google 最新開發者產品和平臺的全球盛會，旨在幫助你快速開發優質應用，發展和留住活躍用戶羣，充分利用各類工具得到更多收益。2018 Google 開發者大會於 9 月 20 日和 21 日於上海舉辦。👉Google 開發者大會 2018 掘金專題算法

2018 年 9 月 21 日周玥楓（Google Brain 軟件工程師）帶來一場《分佈式 TensorFlow：Distribution Strategy API》的演講，本文將對演講作一個回顧。bash

爲何要分佈式訓練？

如上圖所示，在單個 GPU 訓練 Accuracy 須要花費 87 個小時。可是在實際的生產環境中，咱們花費如此多的時間在單個模型的訓練上。若是咱們把時間從幾天壓縮到幾個小時的話，在一樣的時間裏，能夠訓練更多的模型，嘗試更多的想法，生產力將大大提升，因此使用分佈式訓練是實際生產環境所須要的。

Distribution Strategy API

目標：

簡單易用 - 極少的代碼修改
優秀的開箱性能
多功能 - 支持不一樣的分佈式架構和 API

用Keras 訓練 ResNet50 (非分佈式)

train_dataset = tf.data.Dataset(...)
eval_dataset = tf.data.Dataset(...)
model = tf.keras.applications.ReyNet50()
optimizer = tf.train.GradientDescentOptimizer(learning_rate = 0.1)

model.compile(loss = "categorcial_crossentropy",optimizer = optimizer)

model.fit(train_dataset, epochs = 10)
model.evaluate(eval_dataset)
複製代碼

用Keras 在多個 GPU 上訓練 ResNet50 （在 TensorFlow r1.11 中可用）

train_dataset = tf.data.Dataset(...)
eval_dataset = tf.data.Dataset(...)
model = tf.keras.applications.ReyNet50()
optimizer = tf.train.GradientDescentOptimizer(learning_rate = 0.1)

strategy = tf.contrib.distribute.MirroredStrategy()
model.compile(loss = "categorcial_crossentropy",optimizer = optimizer, 
    distribute = strategy)

model.fit(train_dataset, epochs = 10)
model.evaluate(eval_dataset)
複製代碼

經過對比咱們能夠發現，僅僅只是對兩行代碼的修改就能實現多 GPU 的訓練。即便用MirroredStrategy API 無需修改 input pipeline ，無需修改模型、訓練循環就能夠實現多 GPU 訓練，而且無縫支持 Checkpoints，metrics, summaries.架構