如何看待瘦身成功版BERT——ALBERT?

地址  | https://www.zhihu.com/question/347898375/answer/836722282 通常,增加預訓練模型大小通常會提高模型在下游任務中的性能,但考慮到「GPU/TPU內存的限制、更長的訓練時間以及意想不到的模型退化」等問題,作者提出了兩種減少參數的方法:Factorized embedding parameterization 和 Cross-layer
相關文章
相關標籤/搜索