Spatio-Temporal Fusion based Convolutional Sequence Learning for Lip Reading論文閱讀

Abstract 目前最先進的脣讀方法是基於自然機器翻譯和音頻語音識別的seq2seq架構。但是這種方案沒有充分利用脣動的特徵,有兩種缺陷:首先是短期的時間依賴關係是嘴脣圖像到發音嘴型映射的關鍵但是沒有接收足夠的注意力;二是在現有的序列模型中由於使用了全局池化導致局部空間信息的丟失。 本文提出了一個時間聚焦塊來充分描述短期依賴關係,同時提出一個時空融合模塊來保持局部空間信息並降低特徵維度。實驗結果
相關文章
相關標籤/搜索