一文讀懂transformer(CV專享)

時間 2020-12-22

標籤 html git github apache 微信網絡 ide post idea spa 欄目 HTML 简体版

原文原文鏈接

導言：html

transformer在這兩年大火，CV界普遍應用transformer模型，充分吸取其idea到本身的領域。考慮到transformer本是應用於NLP的論文，其中不少內容都造成了共識，所以在論文中並未說起，就好像CV中論文提到圖像預處理使用center crop , color jitter，但不會詳細介紹這兩個，這就是CV領域的共識，其餘領域的人看到這兩個將會很困惑，做爲CV中人讀transformer會被不少共識內容所折磨，包括不少介紹transformer的博客知乎，都是站在NLP領域的角度寫的，所以共識部分都是一筆帶過，本文的出發點是要讓CV人讀得懂。git

（注：本文是本人在內部分享會上的作的ppt，要轉換成文章太費時間，這裏直接使用ppt圖片，原ppt不少內容都是口頭講的，且不少都是原論文引文，這裏爲了介紹清楚，在其基礎上加入了不少口頭上講的東西，並將英文改爲了中文，但願讀者能諒解）github

參考連接
1.《Attention Is All You Need》

2.https://zhuanlan.zhihu.com/p/54743941

3.https://juejin.cn/post/6844903680487981069#comment

4.《The Annotated Transformer》：http://nlp.seas.harvard.edu/2018/04/03/attention.html

5.https://zhuanlan.zhihu.com/p/47812375

6.https://link.zhihu.com/?target=https%3A//lilianweng.github.io/lil-log/2018/06/24/attention-attention.html

聲明：本公衆號全部內容都本着態度嚴謹、力求準確的寫文原則，全部原創文章都注重於原論文，極少參考部分都通過與原論文的對照，解釋合理、確認無誤纔會寫上，固然仍不可避免會出現錯誤，歡迎讀者指出，本人將及時更正。（寫這條是由於看到的全部博客（大概四五篇）都在某一個地方寫錯了，本人在ppt中給出了具體位置）apache

本文來源於微信公衆號「 CV技術指南」的模型總結部分。更多內容與最新技術動態盡在公衆號發佈。微信

歡迎關注公衆號「CV技術指南」，主要進行計算機視覺方向的論文解讀，最新技術跟蹤，以及CV技術的總結。正在進行的系列有網絡模型解讀、行爲識別和CV技術總結。網絡

原創文章第一時間在公衆號中更新，博客只在有空時間才更新公衆號文章ide