CVPR2021競賽結果出爐，阿里淘系多媒體算法包攬3項國際冠軍

時間 2021-07-03

標籤 html web 算法網絡 ide 性能 google spa 設計 orm 欄目阿里巴巴简体版

原文原文鏈接

在剛剛落下帷幕的計算機視覺與模式識別領域頂級會議 CVPR 2021 上，各項國際挑戰賽的競賽結果已所有揭曉。

阿里巴巴淘系技術多媒體算法&視頻內容理解算法團隊，一舉斬獲html

🎉 3 項國際冠軍 🎉
🎉 1 項國際亞軍 🎉
🎉 1 項國際季軍 🎉web

技術域包括圖像描述生成、大規模實例級物體識別、多模態視頻情感理解以及視頻人物交互關係。算法

做爲業界多媒體算法相關領域的領先團隊，淘系技術的這支隊伍着眼打造「端雲一體、跨模態理解」的視頻內容感知與理解算法平臺；重點構建AR直播、3D數字場、內容智能生產、審覈、檢索和高層語義理解等技術領域；支持着淘寶直播、逛逛、點淘等淘系內容業務，經過自研的內容中臺爲整個阿里集團的內容業務提供能力支持。網絡

如下是本次3項國際冠軍的競賽內容詳情&咱們的攻克方法。ide

🏆 冠軍 🏆 VizWiz Image Captioning

▐ 題目

Workshop：CVPR 2021 VizWiz Grand Challenge Workshop
TRACK：Image Captioning性能

▐ 參賽者

宏黎，宏吉，詠亮，玉琦，少麟，定人google

▐ 技術領域

圖像描述生成spa

▐ 比賽背景介紹

VizWiz Grand Challenge比賽從2018年開始舉辦，旨在利用計算機視覺技術幫助有視覺障礙的盲人「看見」世界。設計

該任務的輸入是由盲人拍攝的圖像，輸出是圖像的描述。 orm

與其餘Image Caption數據不一樣，該比賽的數據是由視覺有障礙的盲人拍攝，圖像質量比較差，所以任務難度更高。

▐ 咱們的成績

咱們以 CIDEr-D score 94.06的成績取得第一名，遠超第2名的 CIDEr-D score 71.98。

總分也超過去年冠軍 IBM 的CIDEr-D score 81.04。

▐ 任務難點

該任務主要有兩個難點：

圖像質量較差：含各類室內、室外的場景，同時因爲拍攝者視覺障礙，拍攝圖像會出現失焦模糊、拍攝不全、遮擋等問題；
許多圖像描述須要理解圖像中的文字，不一樣物體，顏色等信息，須要OCR，物體檢測等細節理解能力。

▐ 咱們經過如下途徑解決這些困難

針對VizWiz數據圖像特性，採用swin-transformer抽取圖像的grid feature替換object feature，以充分表徵不一樣圖像區域的特性；
考慮到OCR及物體信息會對image caption生成產生正向引導，咱們抽取了OCR及目標檢測類別信息，做爲特徵補充；
並非全部的圖像都含有OCR信息，咱們採用多種模型互補融合，用視覺模態模型強化那些不含OCR的數據，用視覺+文本（OCR+物體類別）多模態模型強化含有OCR信息較豐富的數據；
針對多種模型生成的結果，考慮到最終的衡量指標是CIDEr，咱們經過self-cider、ocr maximization 多種策略融合的方式進行結果融合。

▐ 可應用的場景

Image captioning須要視覺理解與文本生成，是視覺和NLP任務的結合，可應用於互聯網產品的內容標題自動生成，另外也能夠幫助盲人和視覺受損用戶提高他們對世界的感知能力。

▐ 賽事連接

workshop：https://vizwiz.org/workshops/...
challenge：https://eval.ai/web/challenge...

🏆 冠軍 🏆 Herbarium 2021 - Half-Earth Challenge

▐ 題目

Workshop：The Eight Workshop on Fine-Grained Visual Categorization
Task：fine-grained plant species identification

▐ 參賽者

元年，蘭枻，琉瀟，有鄰，暖雨，濟宇，籬悠

▐ 技術領域

大規模實例級物體識別

▐ 比賽背景介紹

Herbarium 2021屬於 CVPR2021 FGVC8 workshop的一項比賽，該workshop針對實例級細粒度識別問題，已經連續舉辦第八屆。

Herbarium 2021 比賽數據集爲從多個大型植物園收集的美洲、大洋洲等半個地球的6.5W類2.5M張植物樣本圖片，用於訓練植物識別算法，輔助植物學家進行植物識別，發現和保護新物種。

該數據集存在長尾分佈，樣本數目最少的類別僅有3張樣本，同時，不一樣植物間視覺很是類似，同時同一植物的不一樣樣本有較大差別，給實例級識別帶來很大挑戰。

▐ 咱們的成績

咱們以F1 score 0.757的成績在該項比賽上取得了第一名的成績，遠超第二名的0.735和第三名的 0.689。

▐ 任務難點

該任務主要存在如下兩個難點：

植物種類多、類別細，不一樣植物間視覺很是類似，而同一植物的不一樣樣本存在差別，致使類間易混淆，區分難度大；
數據集的樣本分佈不均衡，存在長尾分佈，樣本數目最少的類別僅有3張樣本，如何提高長尾類別準確率相當重要。

▐ 咱們經過如下途徑解決這些困難

將天然場景中實例級植物識別問題轉換成大規模細粒度特徵表達問題，提出self-attention pooling進行局部特徵加強提高特徵表達能力；經過引入Imbalanced Sampler和自適應類別loss解決類別分佈不平衡問題；此外，基於混合精度的大規模多機多卡訓練能力，實現近三百萬數據規模下的快速迭代能力。實現高效萬級在線難樣本挖掘，極大提高了特徵在複雜場景下的泛化能力。最終憑藉領先亞軍2.2%的優點，一舉得到冠軍。

▐ 可應用的場景

實例級的細粒度識別技術可辨別物體間細微的視覺差別從而實現精細的物體識別，普遍應用於商品識別、動植物識別、行人識別、地標識別等領域。

▐ 賽事連接
1.Workshop:https://sites.google.com/view...
2.Challengehttps://sites.google.com/view...
3.Kaggle leadboard:https://www.kaggle.com/c/herb...

🏆 冠軍 🏆ActivityNet Home Action Genome Challenge

▐ 題目

Workshop：International Challenge on Activity Recognition
Task：Home Action Genome Challenge

▐ 參賽者

少麟，廖越（北航），詠亮，葉盈，籬悠，劉偲（北航）

▐ 技術領域

視頻人物交互關係

▐ 比賽背景介紹

Home Action Genome Challenge今年首次在CVPR2021 ActivityNet Workshop舉辦, 由斯坦福大學李飛飛教授課題組主辦，比賽提供了一個大規模多視角的視頻數據集，經過多模態視頻分析，檢測視頻中存在的人物交互關係。

▐ 咱們的成績

咱們以準確率76.5%的成績在該項比賽上取得了第一名的成績，大幅領先第二名的68.4%和第三名的65.7%。

Home Action Genome Challenge 獲獎證書

▐ 任務難點

該任務主要有3個難點：

數據集的平常家居場景複雜，人體和物體的目標檢測難度大
人物關係包含動做關係和空間關係，關注不一樣的視覺特徵
每一組人體和物體都存在多我的物關係，評估時必須徹底正確才計一次正確

▐ 咱們經過如下途徑解決這些困難

採用更好的檢測模型：咱們採用Swin-Transformer和ResNeSt爲backbone的性能SOTA的檢測模型，並經過多種數據加強策略訓練和多尺度融合推理，提高目標檢測的準確率。
強化人物關係的視覺特徵：咱們設計了融合兩階段和一階段關係檢測網絡的方案，首先將Swin-Transformer融入兩階段關係檢測網絡進行端到端訓練，而後改進一階段關係檢測網絡，直接提取<人，物>二元組，再經過cascade結構斷定關係，給出<人，物，關係>三元組。策略上，咱們經過視覺特徵斷定動做關係，空間位置做爲輸入輔助斷定空間關係。
基於統計偏置的生成策略：咱們在生成最終的人物交互關係組時，採用了融合<人，物，關係>三者共生機率和統計偏置加權的多種策略。

▐ 可應用的場景

視頻人物交互關係檢測，檢測視頻中動態的<人，物，關係>的結構化信息，將來可應用於視頻信息結構化，人機交互等應用場景。

▐ 賽事連接

Challenge:https://homeactiongenome.org/...
Workshop:http://activity-net.org/chall...

除上述3項冠軍之外，咱們也在 Hotel-ID 2021-Hotel Recognition Challenge 比賽中取得第二名，以及在 Evoked Expressions from Videos (EEV) Challenge 比賽中取得第三名的好成績，在多媒體算法領域內排名前列。

淘系技術多媒體算法參賽團隊表示：「隨着視頻流量在媒體表徵方面佔比愈來愈高，視頻信息對我的和平臺而言，都存在信息過載的問題。視頻內容的多維度結構化表示將會是視覺領域的熱點研究方向之一。將來咱們也會融合文本、語音和視覺等多模態的信息作好視頻內容理解，讓用戶能夠更多看到本身喜歡的內容，下降用戶信息選擇的時間成本，爲用戶帶來更好的視覺體驗。」