Reformer: The Efficient Transformer

作者:光彩照人 學校:北京郵電大學 研究方向:自然語言處理,精準營銷,風險控制 一、背景與算法介紹    Transformer結構被廣泛應用與自然語言處理中,並且在許多任務上都產生了當前最好的效果。爲了達到進一步的效果,研究人員已經開始訓練更大的Transformer模型。在某些報告的最大配置中,每層參數的數量超過了5億(0.5B),而層的數量增加到了64層。Transformer模型也用於越來
相關文章
相關標籤/搜索