【論文筆記】DCN-plus和FusionNet(2018)

這兩個前BERT時期的模型可以說是把注意力玩出了花來,給我的感覺就像是窮盡算力和各種信息來推高準確率。但是,這兩篇論文裏有很多想法也是值得去思考的。通過學習這兩個網絡,我對注意力的運用模式有了更深的理解。 1.DCN+ 這個網絡是對DCN的優化。DCN是全稱dynamic coattention networks,動態協同注意力網絡。其大致的網絡架構圖如下圖所示: 其中兩個部分的encoder沒什
相關文章
相關標籤/搜索