導言:html
transformer在這兩年大火,CV界普遍應用transformer模型,充分吸取其idea到本身的領域。考慮到transformer本是應用於NLP的論文,其中不少內容都造成了共識,所以在論文中並未說起,就好像CV中論文提到圖像預處理使用center crop , color jitter,但不會詳細介紹這兩個,這就是CV領域的共識,其餘領域的人看到這兩個將會很困惑,做爲CV中人讀transformer會被不少共識內容所折磨,包括不少介紹transformer的博客知乎,都是站在NLP領域的角度寫的,所以共識部分都是一筆帶過,本文的出發點是要讓CV人讀得懂。git
(注:本文是本人在內部分享會上的作的ppt,要轉換成文章太費時間,這裏直接使用ppt圖片,原ppt不少內容都是口頭講的,且不少都是原論文引文,這裏爲了介紹清楚,在其基礎上加入了不少口頭上講的東西,並將英文改爲了中文,但願讀者能諒解)github
參考連接
1.《Attention Is All You Need》
2.https://zhuanlan.zhihu.com/p/54743941
3.https://juejin.cn/post/6844903680487981069#comment
4.《The Annotated Transformer》:http://nlp.seas.harvard.edu/2018/04/03/attention.html
5.https://zhuanlan.zhihu.com/p/47812375
6.https://link.zhihu.com/?target=https%3A//lilianweng.github.io/lil-log/2018/06/24/attention-attention.html
聲明:本公衆號全部內容都本着態度嚴謹、力求準確的寫文原則,全部原創文章都注重於原論文,極少參考部分都通過與原論文的對照,解釋合理、確認無誤纔會寫上,固然仍不可避免會出現錯誤,歡迎讀者指出,本人將及時更正。(寫這條是由於看到的全部博客(大概四五篇)都在某一個地方寫錯了,本人在ppt中給出了具體位置)apache
本文來源於微信公衆號「 CV技術指南 」的模型總結部分 。更多內容與最新技術動態盡在公衆號發佈。微信
歡迎關注公衆號「CV技術指南」,主要進行計算機視覺方向的論文解讀,最新技術跟蹤,以及CV技術的總結。正在進行的系列有網絡模型解讀、行爲識別和CV技術總結。網絡
原創文章第一時間在公衆號中更新,博客只在有空時間才更新公衆號文章ide