深度學習建模訓練總結（六）：梳理NLP發展里程碑——細看transformer

時間 2021-01-11

原文原文鏈接

之前也提到了，一般而言我們會採用LSTM處理輸入的句子，根據上下文等信息調整詞向量，但是LSTM終究有長期依賴問題，這是它的結構決定的，而self-attention的出現，既可以實現以上的目的，同時又避免了長期依賴問題，那爲什麼不用self-attention替代LSTM進行分析呢，這就是transformer提出的緣由。簡單來說，transformer就是在seq2seq的基礎上，引入mul

>>阅读原文<<