UC 伯克利大學計算機科學博士胡戎航(Ronghang Hu)的博士論文新鮮出爐,內容涉及視覺與語言推理的結構化模型。
機器之心報道,機器之心編輯部。express
視覺 - 語言任務(如基於圖像回答問題或按照天然語言指令在視覺環境中導航)須要對圖像和文本兩種模態的數據進行聯合建模和推理。視覺和語言聯合推理方面已經取得了很大進步,但一般使用的是在更大的數據集和更多計算資源幫助下訓練的神經方法。網絡
視覺 - 語言任務的解決是否只是堆參數堆數據那麼簡單?若是不是,如何構建更好的推理模型,既能提升數據效率又具有不錯的泛化性能呢?UC 伯克利胡戎航的博士論文就是關於這個主題:架構
論文連接:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-50.pdf模塊化
論文概述佈局
這篇論文經過視覺 - 語言推理的結構化模型爲上述問題提供了答案,該模型考慮了人類語言、視覺場景、智能體技能中的模式和規律。性能
指示表達定位學習
這篇論文從指示表達定位(referring expression grounding)任務開始,使用 Compositional Modular Network (CMN) 來考慮這些表達中的組合結構,進而顯著提升準確率和泛化性。人工智能
具體而言,該論文提出使用聯合方法顯式地對指示表達及其定位的組合語言結構建模,同時也支持對任意語言的解釋。這裏提出的 CMN 網絡是一種端到端訓練模型,能夠聯合學習語言表徵和圖像區域定位,如圖 2.1 所示。spa
視覺問答3d
視覺問答(VQA)須要同時理解圖像和文本。這種理解一般取決於組合推理( compositional reasoning),如定位一個場景中的多個對象,檢查其屬性或將其相互比較。儘管傳統的深度網絡在 VQA 任務中的性能不錯,可是代表其可以進行顯式組合推理的證據有限。針對這一問題,該論文提出了端到端模塊網絡(N2NMN),該模型可以直接基於文本輸入預測新型模塊化網絡架構,並將其應用於圖像,來解決問答任務。該方法學習將語言解析爲語言結構,再將其組合成合適的佈局。
神經模型可解釋性
第四章中,研究者擴展了關於模塊推理的工做,提出了堆棧神經模塊網絡(SNMN)。該模型使用顯式的模塊化推理過程,它能夠經過反向傳播進行徹底可微的訓練,而無需對推理步驟進行專家監督。與現有的模塊化方法相比,該方法提升準確率和可解釋性。
此外,該模型還能夠進行擴展,在一個模型中無縫處理視覺問答 (VQA) 和指示表達定位。這經過下圖所示的通常程序完成相關任務之間的知識共享:
語言條件圖網絡
除了模塊推理,研究者還提出了使用語言條件圖網絡(LCGN)構造視覺場景的語境感知表示,以進行關係推理。該模型是基於場景中的視覺實體構建的圖網絡,並經過實體之間消息傳遞的屢次迭代來收集關係信息。LCGN 經過對圖中的邊進行加權,動態地肯定每一輪從哪些對象收集信息,並經過圖發送消息以傳播適量的關係信息。其關鍵思想是根據輸入文本的特定語境關係來調整消息傳遞。
圖 5.1 說明了這一過程:
TextVQA 任務
在第六章中,該研究使用迭代式指針加強多模態 Transformer,來解決從圖像中讀取文本並回答問題的任務(即 TextVQA 任務)。
對於 TextVQA 任務,該研究提出新型 Multimodal Multi-Copy Mesh (M4C)。該模型基於 transformer 架構,並經過動態指針進行迭代式答案解碼,如圖 6.1 所示:
導航指令跟隨
針對導航指令跟隨任務,該研究提出了 Speaker-Follower 模型,其中 Speaker 模型和 Follower 模型相互補充。
該研究把導航指令跟隨任務視爲一個軌跡搜索問題,智能體須要根據指令找到環境中的最佳軌跡,從起始位置導航到目標位置。Speaker-Follower 模型包括一個指令理解模塊(follower),將指令映射到動做序列;一個指令生成模塊(speaker),將動做序列映射到指令(圖 7.1),這兩個模塊均經過標準的序列到序列架構實現。speaker 模塊學習爲視覺路線提供文本指令,follower 模塊則根據提供的文本指令執行路線(預測導航動做)。
如下爲論文章節目錄:
做者介紹
胡戎航是 Facebook 人工智能研究院 (FAIR) 的研究科學家,研究興趣包括視覺與語言推理、視覺感知。他於 2020 年在 Trevor Darrell 教授和 Kate Saenko 教授的指導下得到 UC Berkeley 的計算機科學博士學位。