《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering》筆記

專業調參20年。。。 這是ICCV2017上的一篇文章(文章鏈接),代碼在github上的地址:鏈接,pytorch版本在這裏。 文章裏面實現的模型結構示意圖: 項目頁的筆記: 要使用他們給出的代碼的話就要先看下vqa-mcb項目裏面的要求,因爲代碼是基於這個項目開發的。注意因爲代碼裏面的MFB和MCB有點不同,所以caffe版本要用這裏給出的,並且要在使用代碼的時候禁用掉CuDNN(因爲CuDN
相關文章
相關標籤/搜索