6種常見的地標識別算法整理和總結

時間 2021-04-19

標籤算法 segmentfault 網絡函數性能學習大數據 spa blog 排序欄目系統網絡简体版

原文原文鏈接

摘要：地標識別，基於深度學習及大規模圖像訓練，支持上千種物體識別及場景識別，普遍應用於拍照識圖、幼教科普、圖片分類等場景。本文將爲你們帶來6種關於地標識的算法整理和總結。

本文分享自華爲雲社區《地標識別算法》，原文做者：阿杜。算法

地標識別，基於深度學習及大規模圖像訓練，支持上千種物體識別及場景識別，普遍應用於拍照識圖、幼教科普、圖片分類等場景。本文將爲你們帶來6種關於地標識的算法。segmentfault

1、《1st Place Solution to Google Landmark Retrieval 2020》

算法思路：網絡

Step1：使用清洗過的GLDv2數據集訓練初始embedding模型。
Step2：使用全量GLDv2數據基於Step1獲得的模型進行遷移學習。
Step3：逐步擴大訓練圖片的尺度（512512，640640，736*736），模型性能獲得進一步提高。
Step4：增長清洗後的數據的訓練loss權重，進一步訓練模型。
Step5：模型融合。函數

Notes：性能

一、Backbone模型爲Efficientnet+global average pooling，訓練使用了cosine softmax loss。
二、爲了處理類別不均衡問題，使用了weighted cross entropy。學習

經驗總結：大數據

一、清洗後的數據有利於模型快速收斂。
二、全量大數據集有利於模型學習到更好的特徵表示。
三、增長訓練分辨率能提高模型性能。

spa

2、《3rd Place Solution to 「Google Landmark Retrieval 2020》

算法思路：blog

Step1：使用CGLDv2訓練基礎模型用於提取GLDv2全量圖片特徵，使用DBSCAN聚類方法更新圖像類別，進行數據清洗。
Step2：使用了Corner-Cutmix的圖像增廣方法，進行模型訓練。
Notes：
一、backbone爲ResNest200和ResNet152，GAP池化，1*1卷積降維到512維，損失函數爲cross entropy loss。排序

3、《Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval》

算法思路：

Step1：使用CNN特徵進行KNN搜索，獲取類似圖片。
Step2：插入Step1遺漏的圖片進行從新排序。

Notes：

一、Backbone模型爲ResNet-101+Generalized Mean (GeM)-pooling，訓練loss爲ArcFace loss。
二、使用全局特徵+局部特徵對GLd-v2數據集進行清洗，用於後續模型訓練。

4、《2nd Place and 2nd Place Solution to Kaggle Landmark Recognition and Retrieval Competition 2019》

算法思路：

一、使用GLD-v2全量數據分別訓練Resnet15二、ResNet200等模型，訓練loss爲ArcFace loss、Npairs loss，拼接各個backbone的特徵，使用PCA降到512維，做爲圖像的全局特徵。
二、使用全局特徵進行KNN搜索，對搜索結果使用SURF、Hassian-Affine 和root sift局部特徵進行再排序，而且使用了DBA和AQE。