Transformer中的Layer和heads到底是什麼?

上圖是Transformer中編碼器的部分,谷歌發佈的BERT模型中有一個是chinese_L-12_H-768_A-12 分別表示的意思是: 12個transformer-block(也稱爲12層) 768 embedding-dimension(字向量)的維度=768 12注意力機制頭的個數
相關文章
相關標籤/搜索