語音領域的「ImageNet時刻」爲何遲遲不來?

目前在計算機視覺領域已經有了一個普遍認識,那就是 ImageNet 預訓練對於下游任務的有效性,來自 silero.ai 的俄國數據科學家 Alexander Veysov 將這一現狀稱爲實現了「ImageNet 時刻」。那麼它在語音領域是否存在呢?在本文中 Alexander Veysov 給出了否定的回答,並討論了目前語音領域業界和學界存在的弊病,解釋了爲何遲遲未能實現「ImageNet 時刻
相關文章
相關標籤/搜索