圖像識別是人工智能研究的一大支柱,同時也是 Facebook 聚焦的領域之一。咱們的研究人員和工程師旨在打破計算機視覺技術的界限,將這項工做應用於現實世界,例如,利用 AI 爲視障用戶生成照片的音頻標題。爲了改進計算機視覺系統並訓練其識別和分類各類各樣的物體,咱們天天須要訓練數十億張圖像,而不只是數百萬的數據集。git
因爲目前的模型一般是對通過人類手動進行標記的數據進行訓練,因此提升識別率並非簡單地投入更多訓練圖像就可作到的。這種勞動密集型的監督式學習一般會產生最佳的性能結果,但手動標記數據集這樣的方式限制了功能的發展。Facebook 對一些模型進行訓練的圖像規模達 5000 萬,但當訓練圖像擴大到數十億的規模時,這種用人工進行全部監督的方式顯然是不可行的。github
爲了解決這個問題,咱們的研究人員和工程師在帶有標籤的大量公共圖像上訓練圖像識別網絡,其中最大的圖像數據集包括 35 億張圖像和 17000 個主題標籤。這種方法的關鍵是使用現有的、公開的、用戶提供的主題標籤做爲標籤,而不是手動對每張圖片進行分類。這種方法在咱們的測試中運行良好。經過用包含 10 億張圖像的公共數據集來訓練計算機視覺系統,咱們在常見的基準測試工具 ImageNet 上得到了創紀錄的高分,準確率達到 85.4%。除了在圖像識別性能方面實現了真正的突破以外,本研究還提供了關於如何從監督式向弱監督式訓練轉變的方法。在本實驗中,咱們使用的是現有標籤,而不是 AI 訓練專用和挑選的標籤。咱們計劃在將來開放這些模型的嵌入源,所以廣大研究團體可使用這些表示來建立高級任務。微信
因爲人們常用標籤標註他們的照片,所以這些帶標籤的圖像成爲模型訓練數據的理想來源,並且會引導咱們發現更多的相關圖片數據。網絡
但有的標籤常常多是非視覺化的概念,例如表示「回到週四」的標籤 #tbt。或者有些標籤含糊不清,好比標籤 #party,它能夠表示一個活動或一個設定,或者二者兼而有之。在圖像識別過程當中,標籤充當弱監督數據,模糊和 / 或不相關主題標籤則成爲可能混淆深度學習模型的不相干標籤噪聲。架構
這些標籤噪聲對咱們的大規模訓練工做相當重要,所以咱們開發了新的方法,專門用於使用標籤監督進行圖像識別實驗,包括處理每一個圖像的多個標籤(由於添加主題標籤的人傾向於使用多個標籤),經過主題標籤同義詞進行排序,以及平衡頻繁使用主題標籤和罕見標籤的影響。爲了使標籤對圖像識別訓練有用,團隊訓練了一個大型標籤預測模型。這種方法的遷移學習效果出色,這意味着該模型生成的圖像分類普遍適用於其餘 AI 系統。這項新工做創建在 Facebook 的前期研究基礎上,包括基於用戶評論、標籤和視頻的圖像分類調查。這種對弱監督學習的新探索是在多個團隊的合做下進行的,包括 Facebook 的應用機器學習部(AML)和 Facebook 人工智能研究部(FAIR)。機器學習
因爲在一臺機器上完成這樣的訓練須要一年多的時間,所以咱們建立了一種向 336 個 GPU 分配任務的方法,將總訓練時間縮短至幾周。隨着模型規模愈來愈大 ——其中最大的 ResNeXt 101-32x48d(https://github.com/facebookresearch/ResNeXt)參數超過 8.61 億——這種分佈式訓練的方法變得愈來愈重要。此外,咱們設計了一種去除重複的方法,以確保不會意外地在咱們想要評估的圖像上進行模型訓練,這解決了困擾此領域相似研究的一大問題。分佈式
儘管咱們預計圖像識別的性能會有所提高,但結果出奇地好。在 ImageNet 圖像識別基準測試中,咱們的最佳模型經過 10 億張帶有 1500 個主題標籤詞彙圖像,實現了 85.4%的準確率。這是迄今爲止 ImageNet 基準測試的最高準確度,比以前的最新模型準確率提升了 2%。* 考慮到卷積網絡架構的影響,這次性能提高更爲顯著:使用數十億圖像和標籤進行深度學習能夠達到 22.5%的改進。工具
在另外一個主要的基準測試——COCO 目標檢測挑戰中,咱們發現使用標籤進行預訓練能夠將模型的平均準確率提升 2%以上。post
這些是圖像識別和物體檢測的基礎性的改進,表明了計算機視覺向前邁出了一步。可是咱們的實驗也揭示了大規模訓練和嘈雜標籤處理中潛在的機遇和具體的問題。性能
例如,儘管增長訓練數據集的規模很重要,但選擇與特定識別任務相匹配的一組標籤可能更爲重要。咱們經過對 1 億張圖像進行訓練,得到 1500 個與 ImageNet 數據集中的類相匹配的標籤,而不是對相同圖像數量的全部 17000 個主題標籤進行訓練。另外一方面,對於具備更大視覺多樣性的任務,使用 17000 個主題標籤進行訓練,模型的性能改進更加明顯,這代表咱們應該在將來的訓練中增長主題標籤的數量。
增長訓練數據量一般對圖像分類頗有好處,但可能會引發新的問題,包括圖像中物體本地化能力的明顯降低。咱們還觀察到,最大的模型仍然沒有充分利用 35 億圖像集的優點,這代表咱們應該訓練更大的模型。
這項研究得出的其中一個結論甚至比圖像識別方面的進步具備更大的意義,即肯定了用主題標籤進行計算機視覺模型訓練是徹底行得通的。雖然咱們使用了一些合併相似主題標籤和減輕其餘標籤權重的基本技術,但不須要複雜的「清潔」程序來消除標籤噪聲。相反地,咱們可以作到不對訓練程序進行大幅修改的前提下,使用主題標籤來訓練咱們的模型。本實驗中規模是一個優點,由於在數十億的圖像上訓練的網絡對標籤噪聲的恢復能力顯然更強。
在不久的未來,咱們能夠設想其餘使用主題標籤做爲計算機視覺標籤的方式,包括使用 AI 來更好地理解視頻片斷或更改 Facebook Feeds 中圖像的排序方式。主題標籤不只能夠幫助系統識別圖像屬於哪一種通常類別,還能夠識別出更具體的子類別。例如,一個描述樹上有一隻鳥的音頻標題雖然可能有用,可是能夠精確到物種的標題(例如一隻北美紅雀在糖楓樹上棲息)則可能對一位視障用戶更加有意義。標籤能夠幫助計算機視覺系統超越通常分類術語,識別圖像中特定的子類別和附加元素
除了特定標籤的使用,這項研究還可能幫助現有和新產品圖像識別技術得以改進。例如,更準確的模型可能會改進咱們在 Facebook 上呈現 Memories 的方式。另外,這項研究旨在與弱監督數據相關的長期應用,隨着訓練數據集愈來愈大,從長遠來看,弱監督或無監督學習將變得愈來愈重要。所以,瞭解如何彌補噪音和標籤較少的缺點對於構建和使用較大規模的訓練模型相當重要。
這項研究在 Dhruv Mahajan、Ross Girshick、Vignesh Ramanathan、Manohar Paluri、Laurens van der Maaten 的
(https://research.fb.com/publications/exploring-the-limits-of-weakly-supervised-pretraining/)。
因爲本實驗在規模上前所未有,本文詳述的觀點將爲一系列新的研究方向鋪平道路,包括開發新一代能夠從數十億張圖像中有效學習的,足夠複雜的深度學習模型。
這項工做還代表,雖然咱們有 ImageNet 等被普遍使用的基準測試方法,但咱們仍須要開發新的、監督更少、規模更大的 benchmark,使咱們可以更好地衡量當今圖像識別系統的質量和侷限性。
原文連接:
https://code.facebook.com/posts/1700437286678763/