如下是本人每一章節整理的筆記：翻譯

1.介紹（introduction）

論文整體介紹了多模態的五個方向/挑戰：表示（representation）、映射（Translation）、對齊（Alignment）、融合（Fusion ）、聯合學習（Co-learning）。視頻

2.歷史回顧（review）

對多模態應用領域進行了簡單歷史回顧：視聽語音識別、多媒體內容檢索、理解人類行爲等方向應用進行簡單的描述。

如下部分就開始對五個挑戰/方向進行描述：

3.表示（representation）

定義：就是找到多模態信息的統一表示，在計算機中通常是向量或張量

表示方法

定義

面臨困難

實現方法

適用情景

應用領域

聯合表（joint）

將各個模態的數據源映射到同一個空間中進行表示

1.如何把不一樣模態的數據結合起來

2.如何處理不一樣層（level）的噪音

3.如何處理丟失的數據

神經網絡

機率圖模型

Sequential模型

輸入全部模態數據來得出結果，如輸入語音和圖片來得出識別結果

視聽語音識別、多模態手勢識別

協同表示

（coordinated）

分別將各模態投影到獨立的空間中表示，可是這些空間有約束關係

類似度模型

結構化模型

輸入一種模態來得出結果，如輸入一張狗的圖片，輸出「狗」的文本

多模態檢索和翻譯、grounding、零樣本學習

4.映射（Translation/Mapping）

定義：映射就是把一個模態的信息映射成另外一個模態的信息

映射方法	定義	面臨的困難	實現方法	應用領域
基於例子模型（example-based）	在多模態之間創建字典，造成對應關係	因爲答案一般很是開放和主觀，難以實現評估，如一張圖片的描述文字能夠有多種	基於檢索模型 Combination-based模型	媒體字幕生成視頻描述文本生成圖片
生成式模型（generative）	經過訓練，讓模型產生映射能力	基於語法模型編碼解碼模型連續生成模型

映射方法

定義

面臨的困難

實現方法

應用領域

基於例子模型

（example-based）

在多模態之間創建字典，造成對應關係

因爲答案一般很是開放和主觀，難以實現評估，如一張圖片的描述文字能夠有多種

基於檢索模型

Combination-based模型

媒體字幕生成

視頻描述

文本生成圖片

生成式模型

（generative）

經過訓練，讓模型產生映射能力

基於語法模型

編碼解碼模型

連續生成模型

5.對齊（Alignment）

定義：尋找多種模態的子成分之間的關係和對應，如圖片中的狗對齊文本中的狗

對齊方法	定義	面臨的困難	實現方法
顯式對齊（explicit）	顯式對齊就是對齊任務的子結構，如菜譜步驟和視頻的對齊	1.不多有顯式對齊標註的數據集 2.在模態之間設置類似度指標很困難 3.存在多種對應關係以及不是每種模態的元素在另外一模態都有對應	無監督方法 (弱)監督方法
隱式對齊（implicit）	隱式對齊用做另外一個任務的中間步驟，如文本檢索圖像，單詞和圖像區域的對齊	圖模型神經網絡

對齊方法

定義

面臨的困難

實現方法

顯式對齊

（explicit）

顯式對齊就是對齊任務的子結構，如菜譜步驟和視頻的對齊

1.不多有顯式對齊標註的數據集

2.在模態之間設置類似度指標很困難

3.存在多種對應關係以及不是每種模態的元素在另外一模態都有對應

無監督方法

(弱)監督方法

隱式對齊

（implicit）

隱式對齊用做另外一個任務的中間步驟，如文本檢索圖像，單詞和圖像區域的對齊

圖模型

神經網絡

6.融合（Fusion ）

定義：將多個模態的信息整合到一塊兒來預測結果

融合方法	定義	面臨的困難	實現方法	適用場景	應用領域
無模型方法	不依賴與某個特定的機器學習算法	1.信號可能不是時序對齊的（密集連續的信號和稀疏的事件），好比一段視頻只對應一個單詞 2.每種模態在不一樣時間點可能會出現不一樣類型和不一樣層次的噪音	特徵融合決策融合混合融合	它們幾乎可使用任何單模分類器或迴歸器來實現	多模態說話者（speaker）識別多媒體事件檢測
基於模型的方法	顯式的在構造中完成融合	多核學習圖模型神經網絡	在數據量有限或者模型的可解釋性很重要的時候，多核學習和圖模型更好	物標分類表情識別視聽語音識別

融合方法

定義

面臨的困難

實現方法

適用場景

應用領域

無模型方法

不依賴與某個特定的機器學習算法

1.信號可能不是時序對齊的（密集連續的信號和稀疏的事件），好比一段視頻只對應一個單詞

2.每種模態在不一樣時間點可能會出現不一樣類型和不一樣層次的噪音

特徵融合

決策融合

混合融合

它們幾乎可使用任何單模分類器或迴歸器來實現

多模態說話者（speaker）識別

多媒體事件檢測

基於模型的方法

顯式的在構造中完成融合

多核學習

圖模型

神經網絡

在數據量有限或者模型的可解釋性很重要的時候，多核學習和圖模型更好

物標分類

表情識別

視聽語音識別

7.聯合學習（Co-learning）

定義：經過數據源豐富的模態來輔助數據源稀少的模態進行學習

按數據分類	定義	實現方法	應用領域
平行數據	來自相同的數據集，實例之間有直接的對應關係	Co-training Transfer learning	視覺分類動做識別視聽語音識別語義類似度估計
非平行數據	來自不一樣的數據集，沒有重疊的實例，但在通常類別或概念重疊	Transfer learning Conceptual grounding Zero shot learning
混合數據	實例或概念由第三種模式或數據集鏈接	Bridging

按數據分類

定義

實現方法

應用領域

平行數據

來自相同的數據集，實例之間有直接的對應關係

Co-training

Transfer learning

視覺分類

動做識別

視聽語音識別

語義類似度估計

非平行數據

來自不一樣的數據集，沒有重疊的實例，但在通常類別或概念重疊

Transfer learning

Conceptual grounding

Zero shot learning

混合數據

實例或概念由第三種模式或數據集鏈接

Bridging

8.結論（conclusion）

做者在結尾講到，之前對融合這個方向作了很長時間研究，可是近段時間研究者們更熱衷表示和映射這兩個方向

Multimodal Machine Learning: A Survey and Taxonomy/多模態機器學習綜述

1.介紹（introduction）

2.歷史回顧（review）

3.表示（representation）

4.映射（Translation/Mapping）

5.對齊（Alignment）

6.融合（Fusion ）

7.聯合學習（Co-learning）

8.結論（conclusion）