多模態深度學習：用深度學習的方式融合各類信息 - 知乎

做者：Purvanshi Mehta
編譯：ronghuaiyang
原文連接

導讀網絡

使用深度學習融合各類來源的信息。函數

多模態數據

咱們對世界的體驗是多模態的 —— 咱們看到物體，聽到聲音，感受到質地，聞到氣味，嚐到味道。模態是指某件事發生或經歷的方式，當一個研究問題包含多個模態時，它就具備多模態的特徵。爲了讓人工智能在理解咱們周圍的世界方面取得進展，它須要可以同時解釋這些多模態的信號。學習

例如，圖像一般與標籤和文本解釋相關聯，文本包含圖像，以更清楚地表達文章的中心思想。不一樣的模態具備很是不一樣的統計特性。flex

多模態深度學習

雖然結合不一樣的模態或信息類型來提升效果從直觀上看是一項頗有吸引力的任務，但在實踐中，如何結合不一樣的噪聲水平和模態之間的衝突是一個挑戰。此外，模型對預測結果有不一樣的定量影響。在實踐中最多見的方法是將不一樣輸入的高級嵌入鏈接起來，而後應用softmax。優化

多模態深度學習的例子，其中使用不一樣類型的神經網絡提取特徵人工智能

這種方法的問題是，它將給予全部子網絡/模式同等的重要性，這在現實狀況中是很是不可能的。

全部的模態對預測都有相同的貢獻spa

對網絡進行加權組合

咱們採用子網絡的加權組合，以便每一個輸入模態能夠對輸出預測有一個學習貢獻(Theta)。3d

咱們的優化問題變成-視頻

對每一個子網絡給出Theta權值後的損失函數。
blog

將權值附加到子網後預測輸出。

把全部的都用起來！

準確性和可解釋性

咱們在兩個現實多模態數據集上獲得了SOTA：

Multimodal Corpus of Sentiment Intensity(MOSI) 數據集 —— 有417個標註過的視頻，每毫秒標註的音頻特徵。共有2199個標註數據點，其中情緒強度定義爲從strongly negative到strongly positive，線性尺度從- 3到+3。

模態包括：

一、文本

二、音頻

三、語言

每種模態對情緒預測的貢獻量

Transcription Start Site Prediction(TSS)數據集 —— Transcription是基因表達的第一步，在這一步中，特定的DNA片斷被複制到RNA (mRNA)中。Transcription起始位點是transcription開始的位置。DNA片斷的不一樣部分具備不一樣的特性，從而影響其存在。咱們將TSS分爲三個部分：

上游DNA
下游DNA
TSS位置

咱們取得了史無前例的改善，比以前的最早進的結果3%。使用TATA box的下游DNA區域對這一過程影響最大。

—END—

英文原文：https://towardsdatascience.com/multimodal-deep-learning-ce7d1d994f4