從宏觀到微觀零基礎詳解bert

時間 2021-01-12

標籤 bert nlp 简体版

原文原文鏈接

bert模型的文章有許多，不過看了以後對整個模型的結構和數據流並沒有太直觀的理解，在看了源代碼後有了自己的一些的理解寫在下面，不一定全對，在學習中會不斷更新，如果有不同意見歡迎評論提出。首先bert的主體結構(base版)，簡單用一個圖表示: 對應貼一下論文中的參數說明這裏的L=12指的是網絡層數（深度）爲12層； A=12是transformer塊中的多頭自注意力的頭數，需要注意的是bert

>>阅读原文<<