多模態情感分類 論文閱讀筆記 Integrating Multimodal Information in Large Pretrained Transformers

做者創造了一個組件MAG, 用於使BERT 或者 XLNet這種 預訓練的模型能對 多模態的信息進行 Fine-tuneblog

組件的結構以下:
在這裏插入圖片描述
MAG的主要思想在於:

圖片

非語言模態(其它兩個模態)會影響詞彙的意義,進而影響向量在語義空間中的位置, 因此非語言和語言共同決定了向量在語義空間中的新位置。 在此圖中Zi 表示 只受文本模態影響的位置, 咱們經過引入 audio, visual 兩個模態的信息獲得一個偏移量Hi, 而後計算獲得新位置io

在這裏插入圖片描述
其中MAG的結構 由 AAAI2019 Words can shift Dynamically adjusting word representations using nonverbal behaviors 論文中的結構的一部分來的
在這裏插入圖片描述
MAG的加入


class

在這裏插入圖片描述
例如在BERT 中加入MAG, 咱們在第j 層的輸出Z, 與 j +1 層中間加入MAG,導入 另外兩個模態的信息
im

問題:call

  • 沒有想到爲何可以進行fine-tune
  • 把一個AAAI2019年的組件 居然用到BERT中, 這是我是沒有想到的
相關文章
相關標籤/搜索