NLP之Self-Attention和Transformer(通俗易懂的解釋)

以下圖片來自李宏毅老師的PPT截圖,李宏毅老師的視頻對這部分講的很清楚,看了以後有了很清晰的認識。 一、研究背景 如下圖所示,b1、b2、b3、b4、用Self-Attention可以同時計算,而在RNN中不能夠同時被計算,即解決RNN無法並行化的問題。 二、Self-Attention實現原理 1、在把各個詞送入Self-Attention之前先將其乘以一個特徵矩陣,以特徵化的表示各個單詞,然後
相關文章
相關標籤/搜索