縱觀視覺與語言在這六年間的飛速發展史,它就彷彿是兩種不一樣文化(計算機視覺與天然語言處理)的碰撞與交融。這裏每一種文化最初的進化都是 自洽的,即獨立地演化造成一套完備的視覺理解或語言建模體系;演化至今,咱們當前所迎來的則是兩種文化間的 交互,自此視覺理解和語言建模再也不是簡單串聯的兩個模塊,而是經過互相的信息傳遞成爲共同促進的一個總體;對於視覺與語言的將來,則必定是聚焦於二者更爲本質和緊密的 共生,它所渴望的,將是掙脫開數據標註的桎梏,在海量的弱監督甚至於無監督數據上找尋二者間最爲本質的聯繫,並以之爲起源,如「道生一,一輩子二,二生三,三生萬物」通常,賦予模型在各類視覺與語言任務上的生命力。
This monkey on the back of horse
Disney made the best cake of all time using projection
Tiny squid flopping around on the rocky bottom of fish tankgit
注:爲了更好地便於讀者理解和推進視覺語言領域的發展,將這幾年咱們關於視覺與語言的表明性工做(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])進行開源,這些對應的源碼都在 GitHub 上陸續公開(https://github.com/JDAI-CV/im...),敬請關注!github
視覺與語言,即視覺內容理解和天然語言表達,本來分屬於計算機視覺(CV)和天然語言處理(NLP)兩個不一樣的研究領域。然而在 2014 年,圖像描述生成(Image Captioning)猛然打破了二者間的壁壘,憑藉着機器翻譯中經典的 encoder-decoder 模型一下貫通了從視覺內容到語言表達的轉換,爲 CV 和 NLP 領域的後繼者同時打開了一個不一樣模態交叉融合的新世界。算法
與機器翻譯中不一樣天然語言間的轉化相仿,圖像描述生成任務能夠提煉爲從一種視覺語言(圖像特徵表達)到天然語言(描述語句)的轉換。現今主流的圖像描述生成算法的原型均可歸納爲兩個模塊:視覺編碼器(Visual Encoder)和語言解碼器(Language Decoder)。前者負責對視覺內容的理解,將視覺語言編碼爲富含語義信息的特徵表達,後者則依據編碼後的特徵表達來解碼出相應的語言描述。網絡
各自文化的起點都是從蹣跚學步的孩童開始,漸漸造成一個完備自洽的體系。對於視覺和語言也是如此。身處深度學習的浪潮之中,視覺和語言各自也都在不斷地往前進步,譬如由底層紋理到高層語義的視覺內容理解(Visual Understanding),亦或是由單個詞出發演化至整個詞序列的語言建模(Language Modeling)。性能
在這一階段的視覺與語言模型本質上是視覺編碼器和語言解碼器的簡單串聯。以圖像描述生成任務舉例,該階段的研究重心每每是如何從圖像視覺內容中解析出更多的高層語義信息,並將這些語義信息融入到視覺編碼的過程當中,以加強編碼器輸出的視覺特徵表達。這一研究思路也正是咱們在前三年一系列工做的脈絡,即屬性(Attributes)-> 關係(Relation)-> 結構(Hierarchy)。學習
如上圖,首先是 2017 年咱們嘗試在視覺內容編碼的過程當中引入高層的語義屬性,它不只包含圖像中顯著的物體,也具有背景中的場景信息。在獲取高層語義屬性後,咱們不只能夠在特徵層面將語義屬性特徵融合至編碼特徵中(LSTM-A [1]),也能夠將識別的語義屬性詞直接「拷貝」到解碼出的描述中(LSTM-C [5])。接着在 2018 年,受到 Bottom-Up [6] 中經過物體檢測器獲取高性能的物體區域特徵的啓發,咱們進一步去挖掘物體和物體之間的關係(GCN-LSTM [2]),構建出物體間語義和空間的關係圖,從而促進對圖像的理解。儘管物體間關係圖有效地引入了物體間關係的語義信息,但依然沒法充分表達整個圖像所包含的豐富語義。故在 2019 年,咱們提出了一種多層次的樹形語義結構(HIP [3]),它囊括了從語義分割後的物體實例到檢測後的物體區域再到整個圖像的不一樣層級之間的語義信息。經過這樣一種樹形結構能夠實現對物體不一樣層次間語義關聯性的編碼,以解碼出更爲精準的描述文本。測試
視覺與語言發展的第一階段自洽能夠看作是每一個文化獨立的發展史,所衍生的算法模型也大可能是視覺編碼器和語言解碼器的簡單串聯。然而沒有一種文化能夠在發展中獨善其身,互相調和與交互將是必然。所以現今的視覺與語言漸漸步入交互的階段,目的是促進視覺編碼器和語言解碼器間的信息交互。大數據
注意力機制(Attention Mechanism)是不一樣模態間最典型的信息交互手段。它能夠經過每一時刻解碼器的隱狀態來推斷當前編碼器中須要關注的圖像區域,以此幫助編碼器更好地理解圖像內容。以下圖,早期的注意力機制 soft-attention [7] 會依據條件特徵 Q(解碼器當前的隱狀態)與每個圖像局部區域特徵 K 的線性融合來獲取該區域對應的注意力權重,再將每個注意力權重做用於局部區域特徵 V 實現圖像特徵的聚合編碼。在這兩年也涌現了多種升級版本的注意力機制,好比自頂向下的 top-down attention(Bottom-Up [6])、同時捕捉多種注意力的 multi-head attention(Transformer [8])和利用門控進一步過濾注意力的 attention on attention(AoANet [9])。ui
當咱們回顧傳統的注意力機制時,能夠發現它每每利用線性融合來進行跨模態的特徵交互學習,因此其本質只挖掘了不一樣模態間一階的特徵交互,大大限制了注意力機制在視覺與語言這一複雜的跨模態內容推理任務中的做用。針對這個問題,咱們在最新的 CVPR 2020 工做 X-LAN [4] 中打造了一個能實現高階特徵交互的注意力機制 X-Linear attention。它能夠利用雙線性融合技術去挖掘不一樣模態間二階乃至更高階的特徵交互信息,以加強跨模態的內容理解。編碼
同時,該 X-Linear attention 能夠做爲一個靈活的插件接入到目前流行的各類圖像描述生成模型中,極大地提高編碼器和解碼器在模態內和跨模態間的特徵交互能力。咱們也在最爲權威的 COCO 在線評測系統上對所設計的圖像描述生成系統進行測試,在多個指標上均達到世界第一的水平(以下圖)。
儘管視覺內容的理解能夠隨着各類高性能網絡的設計和語義的深刻挖掘不斷升級,視覺和語言間交互的方式也已經從傳統的 soft-attention 演化到捕捉高階信息交互的 X-Linear attention,但視覺與語言的技術發展依然逃脫不了深度學習對於訓練數據的貪婪。COCO12 萬+的圖像,約 60 萬的人工標註語句,自然制約了圖像描述生成技術進一步的發展。不管是對於更多物體的理解仍是對於更普遍語言的表達,亦或是更精細更本質的視覺-語言匹配,都須要更細粒度、更大規模的視覺與語言標註數據來支撐。那麼如何打破這一視覺語言數據的壁壘?如何突破當前算法的瓶頸?
當人們對某種文化進行反思甚至於迷茫的時候,就意味着一個新的起點將應運而生。所以在當下,視覺與語言也須要迎來一個新的階段,其目的是在更廣大的數據上挖掘出二者間最爲本質的共生特質,從而促進不一樣模態間更爲自由的轉換。具體而言就是咱們須要在海量的弱監督甚至於無監督視覺語言數據上去習得二者間最爲本質的聯繫,而後再賦予模型在各類視覺與語言任務上的生命力。
目前剛剛興起的視覺語言預訓練(Vision-language pre-training)或許能夠成爲破局的關鍵。藉助於海量網頁自動抓取的視覺語言數據,如 Conceptual Captions 和 Auto-captions on GIF,咱們能夠預訓練一個通用的編碼器-解碼器模型。正是由於在海量數據上所學會的視覺語言共生特質,該預訓練模型能夠全方位地賦能各類視覺與語言的下游任務,打破每個下游任務中視覺與語言訓練數據的限制,實現了「大一統」的視覺與圖像間跨模態理解與轉換。目前,京東 AI 研究院的這些技術已在京東應用落地。例如商品圖像搜索和圖像審覈等場景,同時也正嘗試將視覺與語言技術融入任務驅動型多模態加強對話中,旨在提高人機交互效率和用戶體驗。
好奇心是我的或者組織創造力的源泉,在權威圖像描述生成評測集 COCO 上的成績彰顯了京東 AI 研究院在視覺與語言領域的世界領先水平。京東智聯雲將一面以智能供應鏈、「新基建」等爲抓手,幫助政府、企業、我的進行數字化、網絡化、智能化轉型,成爲了與零售、物流、數字科技組成了京東四大核心業務版圖,是京東對外技術與服務輸出的核心通道。一面以「ABCDE」技術戰略爲基礎,保持前沿的技術技術研究和好奇心,即「以人工智能(AI)爲大腦、大數據(Big Data)爲氧氣、雲(Cloud)爲軀幹、物聯網(Device)爲感知神經,以不斷探索(Exploration)爲好奇心」。
[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei,「Boosting Image Captioning with Attributes.」In ICCV, 2017.
[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.
[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Hierarchy Parsing for Image Captioning.」In ICCV, 2019.
[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei,「X-Linear Attention Networks for Image Captioning.」In CVPR, 2020.
[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.」In CVPR, 2017.
[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.
[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio,「Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.」In ICML, 2015.
[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut,「Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.」In ACL, 2018.
[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei.「Attention on Attention for Image Captioning.」In ICCV, 2019.
歡迎點擊「更多」瞭解京東智聯雲!