SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 論文閱讀筆記

Paper : https://arxiv.org/abs/2007.12146 [ECCV2020] spatially aware self-attention layer : 使用空間圖定義每一個視覺實體只看相鄰的實體,多頭自注意力層的每個頭都專注於關係的不同子集。 每個頭都考慮局部上下文,而不是將注意力分散在所有視覺實體中; 避免學習多餘的特徵 在TextVQA數據集中大約有13% 的問題
相關文章
相關標籤/搜索