硬核推導Google AdaFactor：一個省顯存的寶藏優化器

時間 2020-07-23

標籤硬核推導 google adafactor 一個寶藏優化欄目 Google 简体版

原文原文鏈接

一隻小狐狸帶你解鎖煉丹術&NLP祕籍node 做者：蘇劍林（來自追一科技，人稱「蘇神」）前言自從GPT、BERT等預訓練模型流行起來後，其中一個明顯的趨勢是模型越作越大，由於更大的模型配合更充分的預訓練一般能更有效地刷榜。不過，理想能夠無限遠，現實一般很侷促，有時候模型太大了，大到哪怕你擁有了大顯存的GPU甚至TPU，依然會感到很絕望。好比GPT2最大的版本有15億參數，最大版本的T5模型參數

>>阅读原文<<