ALBERT概述

時間 2021-01-19

標籤自然語言處理人工智能简体版

原文原文鏈接

1.Introduction 通常來說，模型深度與模型效果成正比，但是模型越深也會帶來動則數億甚至數十億的參數量，這就對計算內存有了一定的要求。而在分佈式訓練中，通信開銷與參數也成正比，所以其對訓練速度也產生了顯著的影響。目前已有的解決方案要麼是並行化，要麼是內存管理，但是都沒有解決通信開銷，即降低模型本身的參數。在本文，作者設計一種輕量級的 Bert，並取名爲 ALBERT（A Lite B

>>阅读原文<<

相關文章

相關標籤/搜索

Thymeleaf 教程

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<