Transformer中的Layer和heads到底是什麼？

時間 2020-12-23

標籤自然語言處理简体版

原文原文鏈接

上圖是Transformer中編碼器的部分，谷歌發佈的BERT模型中有一個是chinese_L-12_H-768_A-12 分別表示的意思是： 12個transformer-block(也稱爲12層) 768 embedding-dimension(字向量)的維度=768 12注意力機制頭的個數

>>阅读原文<<

相關文章

相關標籤/搜索

什麼是數學

XLink 和 XPointer 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<