《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering》筆記

時間 2021-01-02

原文原文鏈接

專業調參20年。。。這是ICCV2017上的一篇文章（文章鏈接），代碼在github上的地址：鏈接，pytorch版本在這裏。文章裏面實現的模型結構示意圖：項目頁的筆記：要使用他們給出的代碼的話就要先看下vqa-mcb項目裏面的要求，因爲代碼是基於這個項目開發的。注意因爲代碼裏面的MFB和MCB有點不同，所以caffe版本要用這裏給出的，並且要在使用代碼的時候禁用掉CuDNN（因爲CuDN

>>阅读原文<<