多模態情感分類 論文閱讀筆記 Integrating Multimodal Information in Large Pretrained Transformers

作者創造了一個組件MAG, 用於使BERT 或者 XLNet這種 預訓練的模型能對 多模態的信息進行 Fine-tune 組件的結構如下: MAG的主要思想在於: 非語言模態(其它兩個模態)會影響詞彙的意義,進而影響向量在語義空間中的位置, 所以非語言和語言共同決定了向量在語義空間中的新位置。 在此圖中Zi 表示 只受文本模態影響的位置, 我們通過引入 audio, visual 兩個模態的信息得
相關文章
相關標籤/搜索