image caption問題爲什麼需要spatial attention

參考論文: SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning image caption是一個image to text的問題,例如圖一中需要生成的下一個詞我們通過觀察可以知道是cake,大概來講我們人類是如何知道的呢?首先根據文本上下文確定我們要觀察的區域,然後只需
相關文章
相關標籤/搜索