http://www.ee.columbia.edu/ln/dvmm/publications/17/zhang2017visual.pdfweb
Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang† , Zawlin Kyaw‡ , Shih-Fu Chang† , Tat-Seng Chua‡ †Columbia University, ‡National University of Singapore算法
亮點網絡
現有工做ide
主要思想學習
Translation Embedding 視覺關係預測的難點主要是:對於N個物體和R種謂語,有N^2R種關係,是一個組合爆炸問題。解決這個問題經常使用的辦法是:spa
受Translation Embedding (TransE) 啓發,文章中將視覺關係看做在特徵空間上從主語到賓語的一種映射,在低維空間上關係元組可看做向量變換,例如person+ride ≈ bike. scala
Knowledge Transfer in Relation 物體的識別和謂語的識別是互惠的。經過使用類別名、位置、視覺特徵三種特徵和端對端訓練網絡,使物體和謂語以前的隱含關係在網絡中可以學習到。設計
算法blog
Visual Translation Embeddingip
Loss function
Feature Extraction Layer
classname + location + visual feature 不一樣的特徵對不一樣的謂語(動詞、介詞、空間位置、對比)都有不同的做用
Bilinear Interpolation
In order to achieve object-relation knowledge transfer, the relation error should be back-propagated to the object detection network and thus refines the objects. We replace the RoI pooling layer with bilinear interpolation [18]. It is a smooth function of two inputs:
結果
Translation embeding: +18%
object detection +0.6% ~ 0.3%
State-of-art:
問題