論文筆記《Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning》

CVPR2018:https://arxiv.org/abs/1711.07613 文章討論的是視覺對話,目標是實現更Human-like的回覆。舉例: 要實現這樣的目標,文章摒棄了先前使用簡單 MLE(最大似然估計)作爲目標函數預測回覆的方法,這個方法常用於機器翻譯和VQA。這種簡單的訓練方法會導致安全的但一般、重複的回覆。 文章使用GAN和RL結合,訓練兩個子模塊:一個生成器根據圖片和對話歷史
相關文章
相關標籤/搜索