用於視覺問答的雙線性超對角線融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》

目錄 一、文獻摘要介紹 二、網絡框架介紹 三、實驗分析 四、結論 這是視覺問答論文閱讀的系列筆記之一,本文有點長,請耐心閱讀,定會有收貨。如有不足,隨時歡迎交流和探討。 一、文獻摘要介紹 Multimodal representation learning is gaining more and more interest within the deep learning community. W
相關文章
相關標籤/搜索