《Supervised Multimodal Bitransformers for Classifying Images and Text》閱讀筆記

《Supervised Multimodal Bitransformers for Classifying Images and Text》閱讀筆記 1 Why 2 What 3 How 3.1 文本特徵 3.2 圖片特徵 4 Result 5 Idea 6 Relatives 1 Why 現在越來越多模態化,文字信息通常夾帶着圖像、聲音、視頻以及各種傳感器的信號。但是很多的多模態數據是以文本爲主
相關文章
相關標籤/搜索