[論文筆記]FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

文章來源:SIGIR’20 摘要 文章基於BERT提出了一個跨模態檢索模型,該模型並不是一個通用的檢索模型,主要用於電商領域時尚用品(Fashon)檢索,作者是阿里巴巴。 框架圖 文章框架和之前基於transformer的文章網絡架構大致相同, 輸入 輸入文本和圖片,對文本取token對圖片取patch 輸出 [CLS]用來判斷文本和圖片是否對齊 訓練任務 遮擋圖片(文本)預測圖片(文本),預測文
相關文章
相關標籤/搜索