2018年9月10日,騰訊AI Lab宣佈將於9月底開源「Tencent ML-Images」項目,該項目由多標籤圖像數據集ML-Images,以及業內目前同類深度學習模型中精度最高的深度殘差網絡ResNet-101構成。git
該項目的開源,是騰訊AI Lab在計算機視覺領域所累積的基礎能力的一次釋放,爲人工智能領域的科研人員和工程師提供了充足的高質量訓練數據,及簡單易用、性能強大的深度學習模型,促進人工智能行業共同發展。github
騰訊AI Lab這次公佈的圖像數據集ML-Images,包含了1800萬圖像和1.1萬多種常見物體類別,在業內已公開的多標籤圖像數據集中規模最大,足以知足通常科研機構及中小企業的使用場景。此外,騰訊AI Lab還將提供基於ML-Images訓練獲得的深度殘差網絡ResNet-101。該模型具備優異的視覺表示能力和泛化性能,在當前業內同類模型中精度最高,將爲包括圖像、視頻等在內的視覺任務提供強大支撐,並助力圖像分類、物體檢測、物體跟蹤、語義分割等技術水平的提高。小程序
以深度神經網絡爲典型表明的深度學習技術已經在不少領域充分展示出其優異的能力,尤爲是計算機視覺領域,包括圖像和視頻的分類、理解和生成等重要任務。然而,要充分發揮出深度學習的視覺表示能力,必須創建在充足的高質量訓練數據、優秀的模型結構和模型訓練方法,以及強大的的計算資源等基礎能力之上。網絡
各大科技公司都很是重視人工智能基礎能力的建設,都創建了僅面向其內部的大型圖像數據集,例如谷歌的JFT-300M和Facebook的Instagram數據集。但這些數據集及其訓練獲得的模型都沒有公開,對於通常的科研機構和中小企業來講,這些人工智能基礎能力有着很是高的門檻。函數
當前業內公開的最大規模的多標籤圖像數據集是谷歌公司的Open Images, 包含900萬訓練圖像和6000多物體類別。騰訊AI Lab這次開源的ML-Images數據集包括1800萬訓練圖像和1.1萬多常見物體類別,或將成爲新的行業基準數據集。除了數據集,騰訊AI Lab團隊還將在這次開源項目中詳細介紹:性能
1) 大規模的多標籤圖像數據集的構建方法,包括圖像的來源、圖像候選類別集合、類別語義關係和圖像的標註。在ML-Images的構建過程當中,團隊充分利用了類別語義關係來幫助對圖像的精準標註。學習
2) 基於ML-Images的深度神經網絡的訓練方法。團隊精心設計的損失函數和訓練方法,能夠有效抑制大規模多標籤數據集中類別不均衡對模型訓練的負面影響。優化
3) 基於ML-Images訓練獲得的ResNet-101模型,具備優異的視覺表示能力和泛化性能。經過遷移學習,該模型在ImageNet驗證集上取得了80.73%的top-1分類精度,超過谷歌同類模型(遷移學習模式)的精度,且值得注意的是,ML-Images的規模僅爲JFT-300M的約1/17。這充分說明了ML-Images的高質量和訓練方法的有效性。詳細對好比下表。人工智能
騰訊AI Lab這次開源的「Tencent ML-Images」項目,展示了騰訊在人工智能基礎能力建設方面的努力,以及但願經過基礎能力的開放促進行業共同發展的願景。spa
「Tencent ML-Images」項目的深度學習模型,目前已在騰訊多項業務中發揮重要做用,如「每天快報」的圖像質量評價與推薦功能。
以下圖所示,每天快報新聞封面圖像的質量獲得明顯提升。
**優化前與優化後**
此外,騰訊AI Lab團隊還將基於Tencent ML-Images的ResNet-101模型遷移到不少其餘視覺任務,包括圖像物體檢測,圖像語義分割,視頻物體分割,視頻物體跟蹤等。這些視覺遷移任務進一步驗證了該模型的強大視覺表示能力和優異的泛化性能。「Tencent ML-Images」項目將來還將在更多視覺相關的產品中發揮重要做用。
自2016年騰訊首次在GitHub上發佈開源項目(https://github.com/Tencent),目前已累積開源覆蓋人工智能、移動開發、小程序等領域的57個項目。爲進一步貢獻開源社區,騰訊相繼加入Hyperledger、LF Networking和開放網絡基金會,併成爲LF深度學習基金會首要創始成員及Linux基金會白金會員。做爲騰訊「開放」戰略在技術領域的體現,騰訊開源將繼續對內推進技術研發向共享、複用和開源邁進,向外釋放騰訊研發實力,爲國內外開源社區提供技術支持,注入研發活力。