論文閱讀:《 Lip Reading Sentences in the Wild》

論文:https://arxiv.org/abs/1611.05358 原文:http://www.hankcs.com/nlp/cs224n-lip-reading.html 脣語翻譯 將視頻處理爲以嘴脣爲中心的圖片序列,給或不給語音,預測正在講的話。 這些數據可能來自新聞直播: 動畫演示: 這裏脣語和語音的識別、卡拉OK效果式的對齊,都是模型自動完成的。 架構 視覺和聽覺兩個模塊或者混合交火或
相關文章
相關標籤/搜索