https://mp.weixin.qq.com/s/oswN2_hsypR1SlELVoHbeg算法
By 超神經 場景描述:近日 Google Brain 團隊對外發布了 Parrotron 項目,幫助人和設備更準確地理解具備語音障礙的人。Parrotron 從音頻分析入手,從語音信號的角度來解決問題。它經過單個端到端深度神經網絡訓練,未來自語音障礙人士的語音,直接轉換爲流利的合成語音,從而幫助他們解決交流上的問題。 關鍵詞:構音障礙 深度神經網絡 機器翻譯
Dimitri Kanevsky,出生於 50 年代的俄羅斯,他的成長階段經歷了中蘇冷戰,但他仍然完成學業,並得到了數學博士學位。網絡
他的求學、工做足跡從俄羅斯開始,展轉於以色列、德國,最終選擇留在了美國,併成爲了谷歌的研究科學家,專一於語音識別算法領域。ide
彷佛是一個學霸精英的人生路徑:受到良好的教育,得到美國綠卡、光鮮的工做、152 項美國科學技術專利,最後在硅谷登頂人生巔峯。工具
故事卻遠遠沒這麼簡單,Dimitri Kanevsky 並非一個普通人。大多數人都難以想到,他仍是聽障人羣中的一員。學習
Dimitri Kanevsky 在一歲時,由於藥物致使了耳聾,但他的家庭依舊爲他選擇了正常的教育,他從小就開始學習讀脣、發聲,一直就讀於普通學校。並在十幾歲的時候,經過俄語發音的輔助,開始學習英語。測試
但在學習英語時,由於聽力障礙、俄語發音差異等緣由,他在語言交流上存在很大的障礙。他說出的語句比較模糊,經常是對方聽不懂的表達。甚至連對本身的家人的口頭關懷,都有可能沒法遞達。編碼
簡單來講,他說的英語大多數人很難直接聽懂,爲了解決本身的問題,也幫助更多和本身面臨相似問題的人羣,Dimitri Kanevsky 一直在攻克語音識別方向的課題。人工智能
有時只爲完成一些普通的交流
Dimitri Kanevsky 須要藉助語音轉文字的工具翻譯
在醫學上,這種說話不清楚的狀況稱爲「構音障礙 dysarthria」。據統計,由於身體疾病而致使構音障礙的情形,在全世界多達一百萬人。設計
構音障礙是因爲神經病變,與言語有關的肌肉麻痹、收縮力減弱或運動不協調所致的言語障礙,通俗的說法是「口齒不清」。
好比中風,大腦麻痹,帕金森病,唐氏綜合症, ALS(漸凍症)等諸多疾病,都會形成這一情況。
對方說了嘰裏咕嚕的一堆
你聽到的倒是嗚嗚哇哇的一串雜音...
一樣在谷歌,一位叫 Aubrie Lee 的品牌市場經理,被診斷出罕見的肌肉萎縮症(漸凍症),致使她長時間要在輪椅上度過。
全身肌肉的不斷流失,也形成了她在交流上的困難。Aubrie 在聽力和發音上都異常吃力,還由於沒法微笑而經常被人誤解。此外她還擁有多種口音,發音並不清晰,在對話時對方每每沒法明白她的意思。
爲了幫助 Dimitri Kanevsky 和 Aubrie Lee 這樣的同伴,解決他們在語言上的難題,構音困難逐漸成了谷歌 AI 研究團隊的一個科研方向。
幾年前,Kanevsky 帶着 30 年的語音識別經驗,加入谷歌的 AI 研究組,那時尚未能讓他和其餘人正常溝通的便捷工具。每次開會, Kanevsky 都須要提早預約 CART 服務,依賴字幕員進入到會議中,將語音信息敲到屏幕上進行對話。
一樣的,Aubrie 和本身同事們,也都須要花費很大的力氣,才能完成常人輕鬆勝任的工做交流。但這種窘境,正在慢慢地成爲歷史。
2019 年 2 月,谷歌推出了一款 App——Live Transcribe ,爲便攜式的語言轉化帶來了曙光。它是一款即時轉錄真實世界語音的應用程序,使用手機自帶的麥克風,便可將語音轉換爲實時顯示的文字。
隨後,在 5 月份的谷歌 I/O 大會上, Project Euphoria 被提出,這個計劃爲 ALS 致使的語言受損人羣,提供一套語音到文字的解決方案。
Project Euphoria 中
谷歌訓練 AI 模型以適應語言障礙
在這個月,谷歌推出了一款新的 AI 工具 Parrotron,可以直接將模糊的聲音,轉化成標準的合成音。這將解決語言障礙的技術又往前推動了一步。
Parrotron 由端到端的深度神經網絡組成,從音頻分析的角度入手,在使用時,測試者對着手機等設備說話,就能快速的獲得轉述後的標準發音。
在論文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中,Parrotrn 表現優異,語音識別和轉化的正確率都有了新的突破。
論文地址:https://arxiv.org/abs/1904.04169
那這項看起來黑科技滿滿的技術,到底是怎麼作到的呢?
Parrotron 是一個端到端的序列到序列模型,使用輸入/輸出語音對的並行語料庫訓練,創建了模糊音與正常語句之間的映射。
Parrotron 的結構流程示意圖
網絡模型由注意力機制的編碼器和解碼器組成,最後由聲碼器合成時域波形,提供預測出的音頻信號。
編碼器將聲學幀序列轉換爲隱藏的特徵表示,解碼器將解析出表示以預測出頻譜圖。
操做上分爲兩個步驟:首先,爲標準流暢的音頻構建語音到語音轉換模型,而後調整模型參數將模糊語音做爲輸入,讓模型學會分辨和識別。
Kanevsky 和另外一員工使用 Parrotron
爲了模擬 ALS 患者的語音特徵,他們使用來自 Project Euphonia 的 ALS 語音語料庫,經過合成語言的方式製造模糊的語句,做爲訓練數據。
而對特定的我的,就由本人提供錄製的素材。
在通過訓練後,轉換模型可以排除語言中的干擾因素,好比重音、韻律和背景噪音等影響;同時忽略掉全部非語言信息的干擾,包括說話者特徵,環境因素,說話方式,僅分析和處理談話的內容。
要驗證 Parrotron 的實際效果,天然還要看它在實踐中的表現。而測試的最佳人選,毫無疑問落到了 Dimitri Kanevsky 和 Aubrie Lee 身上。
在實驗中,Dimitri 錄製了一個 15 小時長的語料庫,讓模型學習他講話時的細微之處。經過學習,模型在最後的翻譯中,在測試集裏的翻譯錯誤率,從開始的 89% 下降到了 32% 。
換句話說,使用 Parrotron 轉錄的語音,對方或者 ASR (語音識別)系統可以輕鬆的聽懂他了。
Kanevsky 使用 Parrotron 的詳情
隨後, Aubrie Lee 也進行了測試,經過她貢獻的 1.5 小時講話內容,模型翻譯出的準確的語音,也讓她實現了清楚表達的願望。
人工智能打造的無障礙項目,在最近幾年被頻繁地提出。許多極具關懷的技術紛紛出現,在努力幫助殘障人士打開新奇的大門。
固然,技術在服務這些人的同時,也被這些特別的羣體所推進。好比 Dimitri Kanevsky,由於深知構音障礙帶來的困境,他一直致力於語音辨識和通信研究的研究工做。而 Aubrie Lee 則用熱烈而蓬勃的生活態度,鼓舞和督促着更多對殘障人羣的研究投入。
Aubrie 仍是跨學科藝術家、設計師
活躍在多個爲殘疾人權益鬥爭的平臺上
雖然目前的數據顯示,狀況還並不樂觀:在全球全部的殘障人士中,只有十分之一的人,得到了相應的技術工具。但所幸的是,隨着一些喜人的進步,不少狀況都在發生改變。
做爲科技大廠的谷歌,還在實施他們「AI for social good」的計劃,而諸如 Parrotron 之類的工具,大概就是朝着美好願景踏進的腳印。
在人工智能技術風靡世界的當下,咱們看到了 AI 對藝術的改造和創造力,對社會生活的積極推進,但也看到了有人利用 AI 惡意換臉、拼接、無中生有。
但願 AI 能迴歸科學的初心,幫助更多須要幫助的人,Make the world a better place!
—— 完 ——
掃描二維碼,加入討論羣
得到優質數據集
回覆「進羣」自動入羣
更多精彩內容(點擊圖片閱讀)