Single Headed Attention RNN: Stop ThinkingWith Your Head 論文筆記

1 研究動機 選擇這篇論文來讀,有一點奇文共欣賞的意思。 區別於如今主流的框架比拼算力,本文從新思考是否是能夠經過lstm 和 單頭的attention就能夠在如今的數據集上完成大型框架相似的指標。web 做者在文章裏花了很大的篇幅去討論,如何會去思考來構建sha-rnn這個模型。他類比了計算機的發展史和摩爾定律,討論了語言模型和tokern。 做者認爲減小緩存,讓語言模型的實現能夠跑在較低的資源
相關文章
相關標籤/搜索