語言模型，bert，transformer，rnn

時間 2021-01-10

原文原文鏈接

RNN問題：問題. 1 導致時間太長，效率低，不能夠很深問題2：單項信息流，‘it’需要考慮前後的情況，RNN不支持解決方法，多個RNN如encoder-decoder就用attention，單個RNN就是Self-attention 1.attention 如翻譯模型中，需要之前的encoder信息 2.self-attention 自驅動的 Transform結構：如翻譯模型，用到

>>阅读原文<<