工程設計+算法規模化真的是AI突破嗎?DeepMind脣讀系統ICLR遭拒

選自 OpenReview,機器之心編譯。網絡

上週,ICLR 2019 接收論文名單放出,使人驚訝的是 DeepMind & Google 的論文《LARGE-SCALE VISUAL SPEECH RECOGNITION》未被接收。這篇論文的評審得分爲:3,4,9,可謂是兩極分化了。評審們認爲即便它在工程上和數據上都很是突出,但大模型加上大數據會提高性能是共識,這類改進不能被看做是貢獻。架構

這種狀況不由讓人想起 2016 年引發熱議的 LipNet 論文(牛津大學人工智能實驗室、谷歌 DeepMind 和加拿大高等研究院 (CIFAR) 合做的研究),這篇論文一樣與 ICLR 2017 失之交臂。此外,這兩篇論文有三位共同做者 Brendan Shillingford、Yannis Assael 和 Nando de Freitas,兩篇論文的一做都是 Brendan Shillingford 和 Yannis Assael,兩篇論文的主題都是脣讀。機器學習

LipNet 是一項利用機器學習實現句子層面自動脣讀的技術,該技術將自動脣讀技術的前沿水平推動到了史無前例的高度。那麼 DeepMind 此次的論文主要是講什麼呢?性能

論文概要學習

該研究提出了一種新型脣讀系統(以下圖所示),它能夠將原始視頻轉換成單詞序列。該系統的第一個組件是數據處理流程,用於建立該研究使用的大規模視覺語音識別(LSVSR)數據集,其中的數據來自 YouTube 視頻,包括說話視頻片斷及對應的音素序列,共包括 3886 小時的視頻)。該數據集的建立須要結合計算機視覺和機器學習技術。該數據處理流程將原始音頻和標註音頻片斷做爲輸入,而後進行過濾和預處理,最後輸出音素和嘴脣幀對齊序列的集合。與以前的視覺語音識別研究相比,該研究的數據處理流程使用了 landmark smoothing、模糊度過濾器(blurriness filter)、改進版說話分類器網絡和輸出音素。人工智能

圖 1:該研究的完整視覺語音識別系統概覽,包括數據處理流程(基於 YouTube 視頻生成嘴脣和音素幀)、用於識別音素的可擴展深度神經網絡,以及用於推斷的生產級詞解碼模塊。

該研究提出的集成式脣讀系統包括視頻處理流程(將原始視頻轉換成音素和嘴脣幀序列的集合)、可擴展深度神經網絡(將嘴脣視頻與音素分佈的序列進行匹配,即識別音素),以及生產級音頻解碼器(輸出詞序列)。據介紹,該系統在留出集上達到了 40.9% 的詞錯率(WER)。相比之下,專業脣讀者在一樣的數據集上的詞錯率爲 86.4% 或 92.9%,且他們能夠獲取額外的語境信息。該方法相比以前的脣讀方法有顯著提高,包括 LipNet 和 Watch, Attend, and Spell (WAS) 的變體,兩者的詞錯率分別爲 89.8% 和 76.8%。.net

如前所述,該論文在評審階段獲得的分數分別爲 3,4,9。爲何會出現這樣的兩極分化局面呢?咱們來看一下評審人員的評審意見。設計

低分評審結果3d

領域主席(AC)在 reject 聲明中發表瞭如下觀點:

這篇論文頗有爭議,做者和評審人員進行了大量討論,主要的爭論焦點在於該論文是否適合 ICLR。這篇論文的全部評審人員都承認該研究的質量和研究結果,可是在該論文是否適合 ICLR 這個問題上存在很大分歧。

一位評審者認爲適合,但其餘兩位持反對見解,他們認爲要想被 ICLR 接收,這篇論文要麼更加註重數據集的準備,包括數據集的公開發布,以便其餘研究者能夠從該研究中獲益,將該研究提出的 V2P 模型做爲脣讀任務的(很是)強基線;要麼更深刻地探究該研究中關於表徵學習的內容,如對比音素和視位單元、提供更多(固然也更費時費力)對照實驗(ablation experiment),以便更深刻地揭示該 V2P 架構的哪一個組件帶來了性能改進。

AC 認爲兩位持反對意見的評審者的論據充分,具有必定說服力。很明顯,不少監督式分類任務(即便是脣讀這樣的結構化分類任務)能夠經過足夠靈活的學習架構和大規模標註數據集來解決,而這篇論文使用的建模技術本質上並不新穎,即便該技術的應用領域是脣讀。此外,若是該研究建立的數據集不公開發布,則其餘人沒法基於該數據集進行研究。目前來看,該論文較適合偏重應用的會議。

匿名評審 1(評分 3)

很明顯,該論文提出了一種大規模脣讀系統。很好的一項工做,也多是當前最強大、通用的脣讀系統,但我以爲該工做與論文並非很適合 ICLR。


論文做者收集了大量 YouTube 視頻,並過濾和抽取能用於脣讀的區域。而後他們設計了一種可擴展的預處理方法,並使用 CTC 方法訓練基於音素的聲學模型。不過他們彷佛使用了 Miao 等人 2015 的研究《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》與谷歌 WFST 解碼架構,並實現大約 40% 的詞錯率。結果很不錯,可是我並無看到任何創新性,論文中也充滿了矛盾。

所以,匿名評審 1 從細節到概念提出了 10 個問題,包括:LipNet 和這個架構看起來很相似,也許大家能夠指出哪些改變形成了這兩個系統的性能差別?」

在論文做者回應後,匿名評審 1 表示:

在目前的版本中,做者指出這篇論文之因此重要,主要是由於(1)數據規模大/性能好;(2)能幫助聽力受損的人;(3)與圖像處理流程的相關性。這代表該論文適合大數據和/或偏工程的會議、 accessibility leaning 會議,或偏應用的語音/視覺(甚至多模態)會議。


就當前的論文版本而言,我仍然很難發現哪一個或哪些修改能夠令這篇論文適合 ICLR,我認爲做者能夠繼續深挖模型爲何要這麼作,以及解決一些問題(是否會公開發布數據集?爲何使用音素而不是視位?)

匿名評審 2(評分 4)

該研究收集的數據集無疑是一項貢獻,但除此以外,技術創新不夠,由於全部的技術在視頻脣讀或者語音識別中都被提出過。表 1 中的數值很驚人,但難以搞清楚提高來自哪裏。所以,值得多作一些實驗:a) 在標註數據集不變的狀況下改變網絡架構;b) 固定網絡架構,改變標註數據集;c) 固定網絡架構與標註數據集,改變 dropout 或組歸一化。seq2seq 在此論文中就是一熊孩子,由於你沒法拿它和其餘設置對比。表 2 的數據也很驚人,但若是提出的系統能在 LRS3-TED 上訓練,並與 TM-seq2seq 對比會更好。

如今你們的共識是,大模型加上大數據會提高表現,但這類改進不能被看做是貢獻。做者有責任作一些綜合實驗,證實論文中的改進不是由於更大的模型、更多的數據。

在論文做者回應後,匿名評審 2 表示:

我認爲該論文提出的數據集和系統都有很大貢獻,也將會有很大的影響力。可是,我依然認爲該研究技術創新有限,由於我讀完以後沒學到任何東西,除了這個任務很難。總體方法和 Miao 等人 2015 年的論文一致,網絡架構也相似於 Sainath 等人 2015 年的論文。我贊成評審 1 的觀點,很難給這篇論文高分。若是這篇論文 focus 在數據集以及數據集準備流程且提供強大的基準上,我可能樂意給出一個高分。

高分評審結果

匿名評審 3(評分 9)

這是一篇好論文。首先,它提供了一個大規模視覺語音識別語料庫。其次,它展現了一個基於開放詞彙的視覺語音識別系統,且取得了當前最優的準確率。論文寫做也很好,全部的技術細節很是明晰。我我的很是感謝做者把這一精細研究貢獻給社區。這是我在 ASR/VSR 社區看到的最大的 VSR 數據集,也是表現最使人深入的一項研究。讀這篇論文,很是享受。

基於反饋,我再補充些評審意見。一些人認爲這項工做在工程上很成功,但缺少技術創新,所以不能被 ICLR 接收。但我不這麼認爲。首先,做者把建立大規模視覺語音識別數據集的技術設計流程描述的很是清楚,這對社區貢獻就很大。(在評審論文時,我假設此數據集將會開放給社區,這可能不太對,我在此致歉。我真的但願該數據集可以公開,這是我給高分的主要緣由。)其次,做者構建了一個在視覺語音識別任務上取得頂尖水平的系統。儘管模型與架構已經有了,但驚人的性能自己對此領域的影響就很大。這不是在大量數據上作工程就能獲得的(雖然數據發揮必定做用)。這是一篇系統論文,但其影響與性能值得被 ICLR 大會接收。

相關文章
相關標籤/搜索