從宏觀到微觀 零基礎 詳解bert

bert模型的文章有許多,不過看了以後對整個模型的結構和數據流並沒有太直觀的理解,在看了源代碼後有了自己的一些的理解寫在下面,不一定全對,在學習中會不斷更新,如果有不同意見歡迎評論提出。 首先bert的主體結構(base版),簡單用一個圖表示: 對應貼一下論文中的參數說明 這裏的L=12指的是網絡層數(深度)爲12層; A=12是transformer塊中的多頭自注意力的頭數,需要注意的是bert
相關文章
相關標籤/搜索