霸榜多個CV任務!開源僅兩天,已收穫2.1k star

圖片

本文轉載自機器之心。git

屠榜各大 CV 任務的微軟 Swin Transformer,近日開源了代碼和預訓練模型。

自 2017 年 6 月谷歌提出 Transformer 以來,它便逐漸成爲了天然語言處理領域的主流模型。最近一段時間,Transformer 更是開啓了本身的跨界之旅,開始在計算機視覺領域大展身手,涌現出了多個基於 Transformer 的新模型,如谷歌用於圖像分類的 ViT 以及復旦、牛津、騰訊等機構的 SETR 等。由此,「Transformer 是萬能的嗎?」也一度成爲機器學習社區的熱門話題。github

不久前,微軟亞研的研究者提出了一種經過移動窗口(shifted windows)計算的分層視覺 Transformer,他們稱之爲 Swin Transformer。相比以前的 ViT 模型,Swin Transformer 作出瞭如下兩點改進:其一,引入 CNN 中經常使用的層次化構建方式構建分層 Transformer;其二,引入局部性(locality)思想,對無重合的窗口區域內進行自注意力計算。windows

圖片

論文連接:https://arxiv.org/pdf/2103.14...架構

首先來看 Swin Transformer 的總體工做流,下圖 3a 爲 Swin Transformer 的總體架構,圖 3b 爲兩個連續的 Swin Transformer 塊。機器學習

圖片

該研究的亮點在於利用移動窗口對分層 Transformer 的表徵進行計算。經過將自注意力計算限制在不重疊的局部串口,同時容許跨窗口鏈接。這種分層結構能夠靈活地在不一樣尺度上建模,並具備圖像大小的線性計算複雜度。下圖 2 爲在 Swin Transformer 架構中利用移動窗口計算自注意力的工做流:性能

圖片

模型自己具備的特性使其在一系列視覺任務上都實現了頗具競爭力的性能表現。其中,在 ImageNet-1K 數據集上實現了 86.4% 的圖像分類準確率、在 COCO test-dev 數據集上實現了 58.7% 的目標檢測 box AP 和 51.1% 的 mask AP。目前,在 COCO minival 和 COCO test-dev 兩個數據集上,Swin-L(Swin Transformer 的變體)在目標檢測和實例分割任務中均實現了 SOTA。學習

圖片

此外,在 ADE20K val 和 ADE20K 數據集上,Swin-L 也在語義分割任務中實現了 SOTA。spa

開源代碼和預訓練模型orm

Swin Transformer 論文公開沒多久以後,微軟官方於近日在 GitHub 上開源了代碼和預訓練模型,涵蓋圖像分類、目標檢測以及語義分割任務。上線僅僅兩天,該項目已收穫 2100星。圖片

圖片

項目地址:https://github.com/microsoft/...

首先圖像分類任務,Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ImageNet-1K 和 ImageNet-22K 數據集上的準確率結果以下:

圖片

其次目標檢測任務:Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 COCO 目標檢測(2017 val)數據集上的結果以下:

圖片

最後語義分割任務:Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ADE20K 語義分割(val)數據集上的結果以下。目前,Swin-L 取得了 53.50% 的 SOTA 驗證 mIoU 分數。

圖片

相關文章
相關標籤/搜索