硬核推導Google AdaFactor：一個省顯存的寶藏優化器

時間 2021-01-20

原文原文鏈接

一隻小狐狸帶你解鎖煉丹術&NLP祕籍作者：蘇劍林（來自追一科技，人稱「蘇神」）前言自從GPT、BERT等預訓練模型流行起來後，其中一個明顯的趨勢是模型越做越大，因爲更大的模型配合更充分的預訓練通常能更有效地刷榜。不過，理想可以無限遠，現實通常很侷促，有時候模型太大了，大到哪怕你擁有了大顯存的GPU甚至TPU，依然會感到很絕望。比如GPT2最大的版本有15億參數，最大版本的T5模型參數量甚至去

>>阅读原文<<