對話|俞棟：在人工智能的不少應用場景，語音識別是一個入口

時間 2019-11-10

標籤對話人工智能不少應用場景語音識別一個入口简体版

原文原文鏈接

俞棟博士1998 年加入微軟公司，現任微軟研究院首席研究員，兼任浙江大學兼職教授和中科大客座教授。語音識別和深度學習方向的資深專家，出版了兩本專著，發表了 160 多篇論文，是 60 餘項專利的發明人及深度學習開源軟件 CNTK（現已改名爲微軟認知工具包）的發起人和主要做者之一。曾獲 2013 年 IEEE 信號處理協會最佳論文獎。現任 IEEE 語音語言處理專業委員會委員，曾任 IEEE/ACM 音頻、語音及語言處理彙刊、IEEE 信號處理雜誌等期刊的編委。前端

記者：請俞老師先介紹一下目前語音識別方面最值得關注的一些方向。算法

俞棟：在安靜環境下並使用近距麥克風的場合，語音識別的識別率已越過了實用的門檻；可是在某些場景下效果還不是那麼好，這就是咱們這個領域的前沿。如今你們主攻幾點：後端

首先，能不能進一步提高在遠場識別尤爲是有人聲干擾狀況下的識別率。目前通常遠場識別的錯誤率是近場識別錯誤率的兩倍左右，因此在不少狀況下語音識別系統還不盡如人意。遠場識別至少目前還不能單靠後端的模型增強來解決。如今你們的研究集中在結合多通道信號處理（例如麥克風陣列）和後端處理從拾音源頭到識別系統全程優化來加強整個系統的表現。網絡

另外，你們還在研究更好的識別算法。這個「更好」有幾個方面：一個方面是能不能更簡單。如今的模型訓練過程仍是比較複雜的，須要通過不少步驟。若是沒有 HTK 和 Kaldi 這樣的開源軟件和 recipe 的話，不少團隊都要用很長時間才能搭建一個還 OK 的系統，即便 DNN 的使用已經大幅下降了門檻。如今由於有了開源軟件和 recipe，包括像 CNTK 這樣的深度學習工具包，事情已經容易多了，但還有繼續簡化的空間。這方面有不少的工做正在作，包括如何才能不須要 alignment ，或者不須要 dictionary。如今的研究主要仍是基於端到端的方法，就是把中間的一些之前須要人工作的步驟或者須要預處理的部分去掉。雖然目前效果還不能超越傳統的 hybrid system，可是已經接近 hybrid system 的 performance 了。數據結構

另外一方面，最近幾年你們已經從一開始使用簡單的 DNN 發展到後來相對複雜的 LSTM 和 Deep CNN 這樣的模型，但在不少狀況下這些模型表現得還不夠好。因此，一個研究方向是尋找一些特殊的網絡結構，能把咱們想要 model 的那些東西都放在裏面。咱們以前作過一些嘗試，好比說人在跟另一我的對話的過程當中，他會一直作預計，這預計包括不少東西，不單是包括你下一句想要說什麼話，還包括根據你的口音來判斷你下面說的話會是怎樣等等。咱們曾嘗試把這些現象建在模型裏以期提高識別性能。不少的研究人員也在往這個方向走。架構

還有一個方向是快速自適應的方法，就是快速的不須要人工干預的自適應方法（unsupervised adaptation）。如今雖然已經有一些自適應的算法，可是它們相對來講自適應的速度比較慢，或者須要較多的數據。有沒有辦法作到更快的自適應？就好像第一次跟一個口音很重的人說話的時候，你可能開始聽不懂，但兩三句話後你就能夠聽懂了。你們也在尋找像這種很是快且能保證良好性能的自適應方法。快速自適應從實用的角度來說仍是蠻重要的。由於自適應確實在不少狀況下可以提高識別率。機器學習

從識別來說，我以爲目前主要是這些方向。ide

記者：Google DeepMind 最近提出了一種經過學習合成波形的方式生成語音的技術 WaveNet，聽說能夠生成感受更天然的語音，微軟在這方面有什麼研究項目？工具

俞棟：微軟也在作相似的工做，可是由於合成的研究團隊和工程團隊都在中國，我對他們具體到哪一個地步不是特別清楚。有一些信息我也不能直接披露，因此就不詳細講了。佈局

記者：深度學習已經在語音識別獲得了很是出色的表現，您以爲將來語音識別還能在深度學習的哪些方面實現突破？

俞棟：剛纔我講了，其中的一個可能性就是經過各類類型的預計和自適應使得深度學習模型表現更出色，這是有可能繼續提高的地方。另外就是端到端建模。

還有，像咱們最近也在作一些特殊環境中的語音識別，好比說在高噪音環境下，或者你說話的時候有背景的音樂，或者是會議室裏面有多我的同時說話——這些狀況下如今的語音識別效果是不好的。因此咱們也在研究如何用深度學習的方法在好比多說話人的狀況下作得比原來傳統的方法好。咱們如今已經在 arXiv 上面發佈了一個早期結果的預印本（Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation，論文連接：https://arxiv.org/abs/1607.00325v1），含有更多實驗結果的正式版本如今正在審稿中。咱們這一稱爲 Permutation Invariant Training 的方法主要用於語音分離。用這種方法整個過程比較簡單而效果很好。在這些方面深度學習都能帶來必定的突破。固然，我前面也講了，徹底解決這些問題須要軟硬結合，從拾音到前端和後端須要系統性優化。

記者：在相似漢語這種多音字、多音詞比較多的語言中，語音識別方面有什麼和英語這樣的拼音語言不同的地方？

俞棟：從語音識別的技術角度來說沒有太大的區別，由於最終都是要將語音信號，即 waveform sequence，變成字或者詞的 sequence。多音字和多音詞只是詞表裏對應的字或詞有多個發音規則而已，這在其餘語言好比英語中也很常見。

但中文做爲一個有音調的語言，音調對字和詞的識別是有影響的。若是音調信息用好了，就有可能提高識別率。不過你們發現 deep learning 模型有很強的非線性映射功能，不少音調裏的信息能夠被模型自動學到，不須要特別處理。

惟一可能不同的地方是若是你用端到端系統，中英文的建模單元會不同。由於在英語裏面你通常會選用字母、音素、或音節做爲建模單元，而不會選用詞做爲建模單元。但在中文裏面你能夠直接用漢字做爲建模單元。因此建模單元的選擇上可能會不太同樣。除此以外，基本上沒有太大區別。

記者：技術上沒有太大區別？

俞棟：沒有太大區別。

記者：具體來講，您以爲天然語言處理可以給語音識別帶來哪些幫助？

俞棟：目前來說，天然語言處理對語音識別自己的幫助還不是很大。要說幫助比較大的方面，若是語言模型（language model）算作天然語言處理的話，語言模型仍是起到了很大做用的，尤爲是在有噪音的環境下，若是沒有語言模型來作約束，效果通常來講都比較差。可是除此以外，如今的 NLP （天然語言處理）技術對語音識別沒有起到很大的做用。你們嘗試過不少用天然語言處理技術提高識別率的方法，效果都不理想。

但從理論上來說天然語言處理應該能夠起到做用。由於咱們能理解句子含義，咱們就能發現有一些語音識別結果是說不通的，好比說前面的主語跟後面的賓語根本就不搭，在這種狀況下識別系統應該選擇其餘的 hypothesis，對話系統則應該尋求澄清，但現有系統沒有這麼作。沒有這麼作的緣由在於它其實不理解到底用戶說了什麼，也沒能充分利用遠距離的 dependency 信息。這樣的錯誤，有可能經過天然語言處理的技術發現並獲得更正。但語義分析是個難題，怎麼作仍是一個未知數。

記者：剛纔咱們講到在噪音環境下，包括遠距離環境下的識別，此外還有多個說話人一塊兒說話的狀況下的語音識別。在這三方面，您以爲如今和將來能夠經過什麼樣的方式來解決這個問題？

俞棟：前面提過，解決遠距離識別很重要的一點是要有硬件的支持。至少以目前的技術，僅僅經過後端處理效果還不夠好。由於信號在傳輸過程衰減很厲害，距離越遠衰減越厲害，信噪比就越差。因此遠距離識別通常都須要作加強。比較好的加強須要硬件支持，好比說麥克風陣列。深度學習方法也能提供一些幫助。當你有多通道信息的時候，深度學習方法還能夠作自動的信息融合以提高遠距離語音識別的性能。

多通道信號處理，好比麥克風陣列，對分離含噪語音和多人混合語音也相當重要。另外，深度學習方法，好比我剛纔提到的 Permutation Invariant 訓練方法，也能夠解決一部分語音分離問題，是總體解決方案中的重要一環。分離後的結果能夠送到後端作識別。後端的識別結果反饋回來也能幫助提高分離和說話人跟蹤的效果。因此最終的系統應該是前端的分離跟後端的識別融合互助的系統。

記者：從您和鄧力老師的《Automatic Speech Recognition： A Deep Learning Approach》出版到如今，您認爲期間深度學習有了什麼新的研究成果? 哪些研究成果您認爲是很重大的？

俞棟：咱們寫這本書的時候，LSTM這樣的模型纔剛剛開始成功應用於語音識別。當時你們對其中的不少技巧尚未很好的瞭解。因此訓練出來的模型效果還不是那麼好。最近，個人同事 Jasha Droppo博士花了不少時間在 LSTM模型上面，提出了一種頗有意思的基於smoothing的 regularization 方法，使得 LSTM 模型的性能有了很大的提高。他的 smoothing 方法的基本思想在咱們的 human parity 文章中有介紹（論文連接：https://arxiv.org/abs/1610.05256）。

另一個比較大的進展是 Deep CNN。最近兩年裏，不少研究組都發現或證明使用小Kernel的 Deep CNN比咱們以前在書裏面提到的使用大kernel的CNN方法效果更好。Deep CNN跟LSTM 比有一個好處：用 LSTM 的話，通常你須要用雙向的 LSTM 效果才比較好，可是雙向 LSTM會引入很長的時延，由於必需要在整個句子說完以後，識別才能開始。 Deep CNN的時延相對短不少，因此在實時系統裏面咱們會更傾向於用 Deep CNN 而不是雙向 LSTM。

還有就是端到端的訓練方式也是在咱們的書完成後才取得進展的。這方面如今你們的研究工做主要集中在兩類模型上。一類就是 CTC 模型，包括 Johns Hopkins 大學的 Dan Povey 博士從 CTC 發展出來的 lattice-free MMI；還有一類是 attention-based sequence to sequence model。這些模型在咱們的書裏面都沒有描述，由於當時尚未作成功。即使今天它們的表現也仍是比 hybrid model 遜色，訓練的穩定性也更差，可是這些模型有比較大的潛力，若是繼續研究有可能取得突破。

另一個進展是單通道語音分離，尤爲是多人混合語音的分離。這方面有兩項有趣的工做。一個是 MERL 三菱電機研究實驗室的John Hershey 博士提出的 Deep Clustering 方法，另一個是咱們提出的 Permutation Invariant Training。實現上，Permutation Invariant Training 更簡單。John Hershey 認爲有跡象代表 deep clustering 是 permutation invariant training 的一個特例。

這些都是在咱們完書以後最近兩年裏比較有意義的進展。

記者：也是在這個月，Google 發了神經網絡翻譯系統（GNMT），您對這個系統有什麼見解？微軟在這方面有沒有這樣的研究？

俞棟：微軟很早之前就在作相似的工做了。你可能知道微軟有個基於文本的翻譯系統，在 Skype 上也有一個 speech to speech translation system。在這些系統裏咱們已經用到了 neural machine translation 的一些東西。不過翻譯主要是由另外的團隊在作，我在這裏面涉及比較少。

記者：語音特徵參數提取與魯棒性語音識別與合成的關鍵因素，特徵參數在不利的噪聲環境下魯棒性都會急劇降低。目前有什麼新的研究能夠在特徵提取中保持語音信號的最重要參數嗎？

俞棟：目前一個方法是用信號處理技術對輸入信號進行分離和加強。另外一個方法是用深度學習取代人工從 waveform 直接提取特徵。只要訓練數據的coverage 足夠大，各類各樣場景的訓練數據都有，模型的結構設計合理，那麼模型的泛化能力和魯棒性就能獲得提高。兩種方式結合能夠獲得更好結果。不過，泛化是機器學習一個未解決的基本問題，更好的解決方案有待機器學習理論的進展。

記者：微軟在語音識別上如何解決方言帶來的口音問題，好比說「le」和「ne」？針對方言，微軟的語料庫是從何而來的？

俞棟：一個簡單的方法是增長帶口音的訓練語料。如何有效利用這些語料有些講究。大概三、4 年前，咱們發過一篇文章，研究怎麼樣在 deep learning model 上作自適應。帶口音的識別問題能夠看做一個自適應的問題。假設你已經有標準語音的模型，帶口音的語音能夠當作標準語音的某種偏離。因此咱們的解決方法是作自適應。作自適應的時候，咱們能夠把有相似口音的語料聚合在一塊兒以增長訓練數據。咱們發現這樣作效果挺不錯。若是已經有系統上線，收集帶口音的語料並不困難。若是你用過 Windows Phone，你就知道 Windows Phone 的 Cortana 裏面有個選項，問你想用標準的識別模型仍是想用含口音的模型，用戶能夠選擇。

記者：今年，微軟發佈了 CNTK。您能說一下 CNTK 跟 Theano、TensorFlow、Torch、Caffe 這些工具的區別嗎？以及在微軟語音系統上是怎麼樣應用 CNTK 的？

俞棟：全部的這些開源工具如今都作得至關好了，都可以知足通常的研究或者是工程的須要。可是每個開源工具都有本身的長處和弱點。CNTK 是惟一一個對 Windows 和 Linux 都有比較好的支持的深度學習工具。對比其餘工具，CNTK 對多 GPU 並行訓練有更好的支持, 不只並行效率高，並且簡單易用。CNTK 對 C 的支持也是最全面的，你能夠徹底使用 C 來構建、訓練、修改、和解碼模型。CNTK 版本 1 對 Python binding 支持比較弱。可是剛剛發佈的版本 2.0 提供了很是強大的 Python binding。另外，CNTK 提供了許多運行效率很高的並行文件閱讀模塊，大大提高了並行效率。這裏我想提一下，個人不少同事都對 CNTK 2.0 有很大貢獻。尤爲值得一提的是 Amit Agarwal，他是我見過的很是可貴的優秀軟件工程師和架構師，他主導設計了 CNTK2.0 的主要 API。我在他身上學到不少東西，我很是享受與他討論的時間。

我和幾個同事剛開始寫 CNTK1.0 的時候，主要用戶是語音識別研究員和工程師，因此 CNTK 對語音相關的模型、數據結構、和文件格式支持得相對比較好。由於語音識別系統訓練數據很大，咱們很早就在 CNTK 中實現了並行訓練的算法。目前，微軟產品線全部的語音識別模型都是用 CNTK 訓練的。最近咱們的語音識別系統在 SWB 數據集上能作到比專業轉錄員錯誤率還低， CNTK 對縮短咱們達到這一里程碑所需的時間有很大貢獻。

後排左起：Wayne Xiong, Geoffrey Zweig, Frank Seide；前排左起：黃學東, Dong Yu, Mike Seltzer, Jasha Droppo，Andreas Stolcke；攝影：Dan DeLong

記者：您曾說過，人工智能的成功在於將多種方法的整合到一個系統。在大家最近發表的論文中，咱們看到目前最新的語音識別的研究用到了多任務優化（Multitask Joint learning）以及多種模型混合（ensembles of models）的方法，能談談各自的優點嗎？

俞棟：相對來講，語音識別是一個任務比較單一而非通用的人工智能系統，語音識別的問題定義得也比較清晰。在這樣的系統裏面，把深度學習模型與其餘模型進行整合的重要性相對來講比較小。這也就是爲何只要你有足夠的數據和運算能力，即使是徹底的 deep learning end-to-end system 表現也不錯。不過目前來說，深度學習和 HMM 相結合的混合模型在大多數場景下仍然表現最佳。

語音識別中使用多任務優化的主要目的，是增長模型的泛化能力或利用一些不能直接利用的輔助信息，而多種模型混合（ensembles of models）的主要目的是利用模型間的差別來加強混合後模型的表現。值得指出的是，因爲深度學習模型屬於非線性非凸的優化問題，當初始模型不一樣時，最後的模型也不一樣。儘管這些模型的平均表現很接近，但由於它們收斂到的點不同，模型之間仍有差別，融合這些模型也能提高一些性能。

更通用的人工智能系統還須要能作決策（decision-making）、要作推理、要能理解。對於這樣的系統來講，單靠深度學習方法遠遠不夠，而要結合過去幾十年里人工智能其餘分支取得的一些進展，好比說加強學習、邏輯推理、知識表達以及最優和次優搜索。還有，若是咱們想讓一羣人工智能系統本身從與環境的交互中快速尋找答案，那麼諸如蟻羣算法和遺傳算法一類的算法就變得很重要了。

記者：今年您以爲在語音識別方面有哪些比較重量級的論文值得關注？

俞棟：除了前面提到的 LF-MMI 、 Deep CNN（包括咱們最近發表的 LACE 模型）和 Permutation Invariant Training，另一個比較有意思的論文是 MERL 在 arXiv 上發表的一篇文章。他們結合了 CTC 和 attention-based model，利用這兩個模型各自的長處來克服對方的弱點。

記者：您是怎麼看待監督學習、半監督學習和無監督學習這三個學習方式呢？

俞棟：監督學習是比較 well-defined，有比較明確的任務。目前來說，深度學習對這一類問題效果比較好。

無監督學習的目的是要尋找數據中的潛在規律。不少狀況下，它試圖尋找某種特徵變換和相對應的生成模型來表達原始數據。但無監督學習不只自己困難，對無監督學習系統的評價也很難。緣由是經過無監督學習找到的規律不必定對你未來的任務有幫助，或者它對某一任務有幫助，換一個任務就沒有幫助了。固然，若是你的目標僅僅是數據壓縮，評價仍是容易的，但咱們使用無監督學習壓縮自己每每不是主要目的。

記者：那半監督學習呢？

俞棟：半監督學習介於二者中間。由於你已經有一部分標註信息了，因此你的任務是明確的，不存在不知如何評估的問題。半監督學習在實用系統裏仍是有必定做用的。好比說咱們須要標註大量數據來訓練語音識別系統，但人工標註既花時間又花錢，因而你每每有比標註數據多得多的未標註數據。沒標註過的數據，也有不少能夠利用的信息，雖然它們的價值遠遠小於標註的數據。半監督學習對咱們的系統性能有必定的提高。

記者：最後一個問題，在整我的工智能的佈局上，您認爲語音識別是一個怎樣的定位？

俞棟：在不少應用場合，語音識別是一個入口。沒有這個入口的話，你們都會以爲這個智能機器不夠智能或者與這個智能機器交互會有困難。在人機交互中語音識別是第一步。若是語音識別作得不夠好，那後期的天然語言理解等的錯誤率就會大幅上升。這也是爲何語音到語音的翻譯要比文本到文本的翻譯難不少，由於在語音對語音的翻譯系統里語音識別產生的錯誤會在後面翻譯的過程當中放大。

一樣，從歷史上看，語音識別也爲機器學習和人工智能提供了不少新的方法和解決方案。好比語音識別裏的關鍵模型 Hidden Markov Model 對後來機器學習的不少分支都有幫助。深度學習也是先在語音識別上取得成功，而後纔在圖像識別和其餘領域取得成功的。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。