什麼是多模態機器學習?

什麼是多模態機器學習?

首先,什麼叫作模態(Modality)呢?app

每一種信息的來源或者形式,均可以稱爲一種模態。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等;多種多樣的傳感器,如雷達、紅外、加速度計等。以上的每一種均可以稱爲一種模態。dom

同時,模態也能夠有很是普遍的定義,好比咱們能夠把兩種不一樣的語言當作是兩種模態,甚至在兩種不一樣狀況下采集到的數據集,亦可認爲是兩種模態。機器學習

所以,多模態機器學習,英文全稱 MultiModal Machine Learning (MMML),旨在經過機器學習的方法實現處理和理解多源模態信息的能力。目前比較熱門的研究方向是圖像、視頻、音頻、語義之間的多模態學習。ide

多模態學習從1970年代起步,經歷了幾個發展階段,在2010後全面步入Deep Learning階段。函數

人實際上是一個多模態學習的總和,因此也有」磚家「說了,多模態學習纔是真正的人工智能發展方向。學習

本文將針對多模態學習在深度學習發麪的研究方向和應用作相關介紹,主要參考了來自ACL 2017的《Tutorial on Multimodal Machine Learning》。人工智能

多模態學習的分類

多模態學習能夠劃分爲如下五個研究方向:翻譯

  1. 多模態表示學習 Multimodal Representation
  2. 模態轉化 Translation
  3. 對齊 Alignment
  4. 多模態融合 Multimodal Fusion
  5. 協同窗習 Co-learning

下面將針對這五大研究方向,逐一進行介紹。3d

多模態表示學習 Multimodal Representation

單模態的表示學習負責將信息表示爲計算機能夠處理的數值向量或者進一步抽象爲更高層的特徵向量,而多模態表示學習是指經過利用多模態之間的互補性,剔除模態間的冗餘性,從而學習到更好的特徵表示。主要包括兩大研究方向:聯合表示(Joint Representations)協同表示(Coordinated Representations)orm

  • 聯合表示將多個模態的信息一塊兒映射到一個統一的多模態向量空間;
  • 協同表示負責將多模態中的每一個模態分別映射到各自的表示空間,但映射後的向量之間知足必定的相關性約束(例如線性相關)。

聯合表示和協同表示對比圖

利用多模態表示學習到的特徵能夠用來作信息檢索,也能夠用於的分類/迴歸任務。下面列舉幾個經典的應用。

在來自 NIPS 2012 的 《Multimodal learning with deep boltzmann machines》一文中提出將 deep boltzmann machines(DBM) 結構擴充到多模態領域,經過 Multimodal DBM,能夠學習到多模態的聯合機率分佈。

單模態和多模態DBM對比圖

論文中的實驗經過 Bimodal DBM,學習圖片和文本的聯合機率分佈 P(圖片,文本)。在應用階段,輸入圖片,利用條件機率 P(文本|圖片),生成文本特徵,能夠獲得圖片相應的文本描述;而輸入文本,利用條件機率 P(圖片|文本),能夠生成圖片特徵,經過檢索出最靠近該特徵向量的兩個圖片實例,能夠獲得符合文本描述的圖片。以下圖所示:

協同表示學習一個比較經典且有趣的應用是來自於《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 》這篇文章。利用協同窗習到的特徵向量之間知足加減算數運算這一特性,能夠搜索出與給定圖片知足「指定的轉換語義」的圖片。例如:

狗的圖片特徵向量 - 狗的文本特徵向量 + 貓的文本特徵向量 = 貓的圖片特徵向量 -> 在特徵向量空間,根據最近鄰距離,檢索獲得貓的圖片

轉化 Translation / 映射 Mapping

轉化也稱爲映射,負責將一個模態的信息轉換爲另外一個模態的信息。常見的應用包括:

機器翻譯(Machine Translation):將輸入的語言A(即時)翻譯爲另外一種語言B。相似的還有脣讀(Lip Reading)語音翻譯 (Speech Translation),分別將脣部視覺和語音信息轉換爲文本信息。

圖片描述(Image captioning) 或者視頻描述(Video captioning): 對給定的圖片/視頻造成一段文字描述,以表達圖片/視頻的內容。

語音合成(Speech Synthesis):根據輸入的文本信息,自動合成一段語音信號。

模態間的轉換主要有兩個難點,一個是open-ended,即未知結束位,例如實時翻譯中,在還未獲得句尾的狀況下,必須實時的對句子進行翻譯;另外一個是subjective,即主觀評判性,是指不少模態轉換問題的效果沒有一個比較客觀的評判標準,也就是說目標函數的肯定是很是主觀的。例如,在圖片描述中,造成怎樣的一段話纔算是對圖片好的詮釋?也許一千我的心中有一千個哈姆雷特吧。

對齊 Alignment

多模態的對齊負責對來自同一個實例的不一樣模態信息的子分支/元素尋找對應關係。這個對應關係能夠是時間維度的,好比下圖所示的 Temporal sequence alignment,將一組動做對應的視頻流同骨骼圖片對齊。相似的還有電影畫面-語音-字幕的自動對齊。

對齊又能夠是空間維度的,好比圖片語義分割 (Image Semantic Segmentation):嘗試將圖片的每一個像素對應到某一種類型標籤,實現視覺-詞彙對齊。

多模態融合 Multimodal Fusion

多模態融合(Multimodal Fusion )負責聯合多個模態的信息,進行目標預測(分類或者回歸),屬於 MMML 最先的研究方向之一,也是目前應用最廣的方向,它還存在其餘常見的別名,例如多源信息融合(Multi-source Information Fusion)、多傳感器融合(Multi-sensor Fusion)。

按照融合的層次,能夠將多模態融合分爲 pixel level,feature level 和 decision level 三類,分別對應對原始數據進行融合、對抽象的特徵進行融合和對決策結果進行融合。而 feature level 又能夠分爲 early 和 late 兩個大類,表明了融合發生在特徵抽取的早期和晚期。固然還有將多種融合層次混合的 hybrid 方法。

融合層次示意圖

常見的機器學習方法均可以應用於多模態融合,下面列舉幾個比較熱門的研究方向。

視覺-音頻識別(Visual-Audio Recognition): 綜合源自同一個實例的視頻信息和音頻信息,進行識別工做。

多模態情感分析(Multimodal sentiment analysis): 綜合利用多個模態的數據(例以下圖中的文字、面部表情、聲音),經過互補,消除歧義和不肯定性,獲得更加準確的情感類型判斷結果。

手機身份認證(Mobile Identity Authentication): 綜合利用手機的多傳感器信息,認證手機使用者是不是註冊用戶。

多模態融合研究的難點主要包括如何判斷每一個模態的置信水平、如何判斷模態間的相關性、如何對多模態的特徵信息進行降維以及如何對非同步採集的多模態數據進行配準等。

若想了解傳統的機器學習方法在此領域的應用,推薦學習清華大學出版的《多源信息融合》(韓崇昭等著)一書。

協同窗習 Co-learning

協同窗習是指使用一個資源豐富的模態信息來輔助另外一個資源相對貧瘠的模態進行學習。

好比遷移學習(Transfer Learning)就是屬於這個範疇,絕大多數邁入深度學習的初學者嘗試作的一項工做就是將 ImageNet 數據集上學習到的權重,在本身的目標數據集上進行微調。

遷移學習比較常探討的方面目前集中在領域適應性(Domain Adaptation)問題上,即如何將train domain上學習到的模型應用到 application domain。

遷移學習領域著名的還有零樣本學習(Zero-Shot Learning)同樣本學習(One-Shot Learning),不少相關的方法也會用到領域適應性的相關知識。

Co-learning 中還有一類工做叫作協同訓練(Co-training ),它負責研究如何在多模態數據中將少許的標註進行擴充,獲得更多的標註信息。

經過以上應用咱們能夠發現,協同窗習是與須要解決的任務無關的,所以它能夠用於輔助多模態映射、融合及對齊等問題的研究。

結束語

到此爲止,咱們對多模態機器學習領域的研究方向和應用進行了一個大體的梳理,受限於篇幅,還有許多未涉及的研究問題。

有什麼讀後感嗎?

也許你之前沒有聽過多模態學習(MMML)這個概念,讀了此文發現原來本身作的正是 MMML 一個分支;

也許你之前以爲 CV / NLP / SSP 纔是人工智能的正統,讀了此文發現多學科交叉的 MMML 同樣能夠玩 DL 溜得飛起;

也許你目前正苦於找不到研究的方向,讀了此文發現 MMML 打開了新的大門,原來有這麼多的事情能夠作。

多模態學習是一個目前熱度逐年遞增的研究領域,若是你們感興趣,歡迎留言反饋,後續咱們會考慮推出幾個熱門 MMML 方向的經典or前沿論文、模型解析。

推薦幾篇入門綜述文獻

若是想入門 MMML 或者但願對該領域有初步瞭解,能夠從如下幾篇綜述入手

【1】Atrey P K, Hossain M A, El Saddik A, et al. Multimodal fusion for multimedia analysis: a survey[J]. Multimedia systems, 2010, 16(6): 345-379.

【2】Ramachandram D, Taylor G W. Deep multimodal learning: A survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6): 96-108.

【3】Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.

相關文章
相關標籤/搜索