論文地址:https://arxiv.org/abs/1611.01578網絡
強化學習,用一個RNN學一個網絡參數的序列,而後將其轉換成網絡,而後訓練,獲得一個反饋,這個反饋做用於RNN網絡,用於生成新的序列。架構
由於每生成一個網絡,都會訓練一遍,Google用了800個GPU,訓練了12800個網絡,它採用的是分佈式訓練的方法。分佈式