深度學習建模訓練總結(六):梳理NLP發展里程碑——細看transformer

之前也提到了,一般而言我們會採用LSTM處理輸入的句子,根據上下文等信息調整詞向量,但是LSTM終究有長期依賴問題,這是它的結構決定的,而self-attention的出現,既可以實現以上的目的,同時又避免了長期依賴問題,那爲什麼不用self-attention替代LSTM進行分析呢,這就是transformer提出的緣由。 簡單來說,transformer就是在seq2seq的基礎上,引入mul
相關文章
相關標籤/搜索