預訓練是AI未來所需要的全部嗎？

時間 2020-12-30

原文原文鏈接

2019-12-30 10:16:55 今天，我們生活在一個由大量不同模態內容（文本、圖像、視頻、音頻、傳感器數據、3D 等）構建而成的多媒體世界中，這些不同模態的內容在具體事件和應用中具有高度相關性。跨模態任務也越來越多，涉及多個模態的數據的交互，例如圖像和視頻的檢索，字幕，視頻摘要，文本到圖像和視頻的預測與合成，語言驅動的時空動作定位，以及視覺常識推理等等。因此，跨模態學習日益引起了學術界