BERT直觀理解

BERT架構圖 簡單解釋一下BERT的架構圖。位置向量解決了時序問題(RNN不能並行的執行,只能一個一個的來,但是不一個一個的來,時序即word的先後順序,怎麼處理呢,位置向量就解決了);Self-Attention解決RNN不能並行的問題,multi-head可以提取到多種語義的層次表達,這一部分是核心;接着將向量層的數據(向量表示)和Mutil-Head-Attention的數據進行合併,這個
相關文章
相關標籤/搜索