原文地址(在線體驗):https://deepmind.com/blog/wavenet-generative-model-raw-audio/算法
論文下載:https://arxiv.org/pdf/1609.03499.pdf數據庫
Google的DeepMind研究實驗室公佈了其在語音合成領域的最新成果——WaveNet,一種原始音頻波 形深度生成模型,可以模仿人類的聲音,生成的原始音頻質量優於目前Google採用的兩種最優文本-語音模型Parameric TTS與Concatenative TTS。網絡
WaveNets是一種卷積神經網絡,可以模擬任意一種人類聲音,生成的語音聽起來比現存的最優文本-語音系統更爲天然,將模擬生成的語音與人類聲音之間的差別下降了50%以上。性能
咱們也將證實,同一種網絡可以合成其餘音頻信號,如音樂,並可以自動生成沁人心脾的鋼琴曲。學習
令人們可以與機器自由交談是人機交互研究領域長久以來的夢想。過 去幾年中,深度神經網絡的應用(如Google語音搜索)爲提升計算機理解天然語音的能力帶來了革新。可是,運用計算機生成語音——一般用於指代語音合成 或文本-語音(TTS)系統——在極大程度上還要依託拼接TTS,TTS中包含一個超大型記錄單個說話者的簡短語音片斷的數據庫,隨後將這些語音片斷從新 合成造成完整的話語。在不記錄一個新的完整數據庫的前提下,這種語音合成方法難以作到修飾聲音(例如,轉換到一個不一樣的說話者,或者改變其語音中強調的重 點或傳達的情感)。測試
爲了解決語音合成的這一難題,迫切須要運用一種參數TTS,在這種文本-語音系統中,生成數據所須要的全部信息被存儲於模型的參數中,語音所傳達的內容及 語音特徵能夠經過模型的輸入信息得以控制。然而,目前參數(Parametric)TTS模型生成的語音聽起來不如拼接 (Concatenative)TTS模型生成的語音天然,這種現象至少出如今音節類語言中,如英語。現有的參數模型一般是運用信號加工算法 vocoders計算得到的輸出信息,以今生成音頻信號。動畫
WaveNet經過直接爲音頻信號的原始波形建模,一次爲一種音頻樣本建模,來改變這種範式。同生成聽起來更爲天然的語音相同,使用原始波形意味着WaveNet可以爲任意類型的音頻建模,包括音樂。spa
研 究者一般避免爲原始音頻建模,由於原始音頻每每瞬間發生變化:一般狀況下,每秒出現16,000種或更多音頻樣本,在不少時間標尺內出現重要的結構。很明 顯,構建一個徹底自動迴歸模型是一項具備挑戰性的任務,在這種模型中,對每一種音頻樣本的預測均受到以前全部音頻樣本的影響(用統計學方面的話來說,每一 種預測性分佈是創建在全部先前觀察的基礎之上的)。code
可是,咱們今年公佈的PixelRNN和PixelCNN模型顯示,作到以每次一個像素,甚至於每次一個顏色通道的方式生成複雜的天然圖像是可能的,這將要求對每一個圖像作數千次預測。這也啓發咱們將原有的二維PixelNets轉變爲一種一維WaveNet。blog
上方動畫所示爲一個WaveNet模型的內部結構,一般是一種完整的卷積神經網絡,卷積層中有各類各樣的擴張因子,容許其接受域深度成倍增加,而且覆蓋數千個時間步長。
在 訓練時間段內,輸入序列是從人類說話者記錄得來的真實波形。在訓練以後,咱們能夠對網絡取樣,以生成合成話語。在取樣的每個步驟中,將從由網絡計算得出 的機率分佈中抽取數值。所抽取的數值隨後被反饋到輸入信息中,這樣便完成下一步新預測。像這樣每作一次預測就取樣會增長計算成本,可是咱們已經發現,這樣 的取樣方法對於生成複雜且聽起來真實的音頻是相當重要的。
咱們曾 經運用Google的一些TTS數據集來訓練WaveNet,以便用於評估WaveNet的性能。下圖所示爲與Google當前最優TTS系統(參數型 TTS和拼接型TTS)和使用Mean Opinion Scores(MOS:用於評估語音通信系統質量的方法)得到的人類語音相比,在標尺(1-5)上WaveNets的質量。MOS是一種用於主觀語音質量 測試的標準測定方法,在人羣中進行盲試驗。咱們能夠看到,WaveNets將最優模型生成語音的質量與人類天然語音(US英語和漢語普通話)之間的差距降 低了50%以上。
就漢語和英語來說,Google當前的TTS系統在世界範圍內被認爲是最優文本-語音系統,所以,用一種單一模型來改善生成漢語與英語語音質量將會是一項重大成就。
教會WaveNet說有意義的話
爲 了實現運用WaveNet將文本轉化爲語音,咱們得告訴WaveNet文本的內容是什麼。咱們經過將文本轉換成語言和語音特徵(包括音位、音節、單詞 等),把轉換得來的特徵提供給WaveNet,完成這一過程。這意味着網絡的預測步驟不只僅基於先前得到的音頻樣本,並且要基於文本所傳達的內容。
若是咱們想要脫離文本序列來訓練網絡,網絡依然可以生成語音,可是得自行編造想要傳達的內容。這種條件下生成的音頻簡直是胡言亂語,有意義的單詞被編造的像單詞的聲音隔斷開。
注意,有時WaveNet也會生成一些非語音類型的聲音,如呼吸或口腔運動;這反映出一種原始音頻模型具備高度靈活性。
一 個單一的WaveNet具有學習許多不一樣聲音(男性和女性)的特徵。爲了確保WaveNet可以知道用何種聲音匹配給定的任何一段話語,咱們訓練網絡使之 學習得到說話者的身份特徵。有趣的是,咱們發現,與單一訓練單個說話者的特徵相比,用許多說話者的語言、語音及身份等特徵來訓練網絡使得WaveNet能 夠更好地模擬單個說話者,這種訓練模式暗含着一種遷移學習形式。
經過改變說話者的身份,咱們能夠用WaveNet以不一樣的聲音表達同一段話語。
一樣,咱們能夠爲該模型提供額外的輸入信息,如情感或口音,使得生成的語音變得更爲多樣化,更有趣。
由 於WaveNet可以用來模擬任何一種音頻信號,咱們認爲,嘗試用WaveNet生成音樂也將很好玩。與TTS實驗不一樣,咱們的網絡不是基於一個輸入序 列,告訴它怎麼演奏音樂(如一篇曲譜);相反,咱們只是簡單地容許WaveNet任意生成一種音樂。當咱們採用一個古典鋼琴曲數據集來訓練WaveNet 時,它將生成一曲美妙樂章。
WaveNets將爲TTS帶來無數可能,大致上來說,有生成音樂和模擬音頻兩類。事實上,直接運用深度神經網絡一個時間步長一個時間步長地生成音樂,這種方法適用於全部16kHZ音頻,這將是很是使人驚喜的。咱們很是期待WaveNets將來將會帶給咱們的驚喜。