ALBERT概述

1.Introduction 通常來說,模型深度與模型效果成正比,但是模型越深也會帶來動則數億甚至數十億的參數量,這就對計算內存有了一定的要求。而在分佈式訓練中,通信開銷與參數也成正比,所以其對訓練速度也產生了顯著的影響。 目前已有的解決方案要麼是並行化,要麼是內存管理,但是都沒有解決通信開銷,即降低模型本身的參數。 在本文,作者設計一種輕量級的 Bert,並取名爲 ALBERT(A Lite B
相關文章
相關標籤/搜索