Transfer Learning via Unsupervised Task Discovery for Visual Question Answering論文解讀

這篇文章雖然也是VQA的,但和之前看的類型完全不一樣,文章研究的問題也幾乎沒有被探索過,所以還是有很多地方看不太明白,在這裏僅發表自己的看法,若有不對的地方,還望多多指教! 引入 人類看到和理解的視覺場景是基於不同視覺概念。例如,從一張椅子的單一圖像中,人類毫不費力地識別出不同的視覺概念,如它的顏色、材料等。 風格、用途等。這種不同的視覺概念可能與自然語言中定義每個視覺概念的識別任務的不同問題有關
相關文章
相關標籤/搜索