SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 論文閱讀筆記

時間 2020-12-23

原文原文鏈接

Paper : https://arxiv.org/abs/2007.12146 [ECCV2020] spatially aware self-attention layer : 使用空間圖定義每一個視覺實體只看相鄰的實體，多頭自注意力層的每個頭都專注於關係的不同子集。每個頭都考慮局部上下文，而不是將注意力分散在所有視覺實體中；避免學習多餘的特徵在TextVQA數據集中大約有13% 的問題

>>阅读原文<<