paper:Hierarchical Attention Networks for Document Classification

又是一篇很久之前用到的模型,今天回來整理,發現分類的模型都好簡單啊,然後看到模型基於GRU,總覺得有點不想看,因爲帶時間序列的訓練起來太慢了,最進沒怎麼關注分類的新模型,不過我覺得CNN和transformer結構(self attention)的搭配應該是分類問題的趨勢,不過這篇文章後面的attention效果可視化還是不錯的~ 文章目錄 1.模型概述 2.模型詳情 2.1.Word Encod
相關文章
相關標籤/搜索