https://mp.weixin.qq.com/s/fyXVvmpl_12sS-khxuYcPQ網絡
By 超神經 場景描述:利用神經網絡將人說話時,相應大腦區域的神經信號進行解碼,而後使用循環神經網絡將信號合成爲語音,可幫助語言障礙患者解決語言溝通問題。 關鍵詞:循環神經網絡 解碼器 腦機接口 語音合成
「讀心術」可能真的要實現了。機器學習
說話對大多數人來講是一件再尋常不過的事。可是,這個世界上還有不少人,遭受這些疾病的折磨:中風、創傷性腦損傷、神經系統變性疾病如帕金森病、多發性硬化症和肌萎縮側索硬化症(ALS 或 Lou Gehrig 病)等,他們每每所以喪失說話能力,且不可逆轉。ide
科學家們一直在恢復人體功能、神經修復方面作着努力,腦機接口(brain-computer interface,BCI)即是一個重點領域。學習
腦機接口指的是,在人或動物大腦與外部設備之間建立的直接鏈接,實現腦與設備的信息交換。測試
腦機接口中的「腦」指的是有機生命形式的
腦或神經系統,並不是僅僅指大腦人工智能
可是彷佛一直以來,腦機接口都是一個遙遠的概念。而今天,頂尖學術期刊《Nature》上發表的論文《Speech synthesis from neural decoding of spoken sentences》(《口語語句神經解碼的語音合成》),讓咱們看到腦機接口領域的研究向前邁進了一大步。code
事實上,腦機接口的研究已經持續超過 40 年。但至今最成功、臨牀應用最普及的只有人工耳蝸等感受修復技術。blog
至今,一些患有嚴重語言障礙的人,仍然只能使用輔助設備逐字逐句地表達他們的想法。遞歸
這些輔助設備可以跟蹤很是細微的眼睛或面部肌肉運動,根據患者動做示意去拼寫詞句。接口
物理學家霍金,他的輪椅上就曾安裝這樣的設備。
霍金依靠語音合成器來「說話」,他曾使用過多套輔助交流系統
當時,霍金靠紅外線檢測到的肌肉運動來發出命令,確認電腦光標掃描過的字母,寫下他想要的文字。以後,再利用文字轉語音設備把話「說」出來。正是藉助這些黑科技,咱們纔可以看到他的著做《時間簡史》。
然而,用這樣的設備產生文本或合成語音不只費力,還易出錯,並且合成速度很是慢,一般容許每分鐘最多 10 個單詞。霍金當時速度已經很快,可是也只能拼出 15-20 個單詞。而天然語音每分鐘能達到 100 到 150 個單詞。
此外,這種方法還嚴重受限於操做者自身的肌體運動能力。
爲解決這些難題,腦機接口領域一直在研究如何直接將腦皮層相應電信號解讀成語音。
現在,這個難題迎來了突破性進展。
加州大學舊金山分校的神經外科教授 Edward Chang 與同事在這次發表的論文《口語語句神經解碼的語音合成》中,提出其建立的腦機接口能將人講話時產生的神經信號解碼,併合成爲語音。系統每分鐘可以生成 150 單詞,接近人類正常講話語速。
論文第一做者 Gopala Anumanchipalli 拿着一組
用於記錄當前研究中的大腦活動的示例性顱內電極
該團隊研究人員招募正在接受治療的五名癲癇病人,讓他們大聲說出幾百個句子,與此同時,將他們的高密度腦電圖(ECoG)信號記錄下來,並跟蹤大腦的語音產生中心——腹側感受運動皮層區域的神經活動。
利用循環神經網絡(RNN),研究人員分兩步破譯了採集到的神經信號。
第一步,他們將神經信號轉換爲表徵發音器官動做的信號,包括下巴、喉、嘴脣和舌頭動做相關的腦信號。
第二步,根據解碼出來的發音器官動做,把信號轉換爲說出的詞句。
腦機接口實現語音合成的步驟圖示
在解碼流程上,研究者首先將患者說話時,三個腦區域表層的連續電圖信號解碼,這些電圖信號由侵入式電極記錄。
解碼後獲得 33 種發音器官運動特徵指標,隨後將這些運動特徵指標解碼爲 32 項語音參數(包括音高(pitch)、清濁(voicing)等),最終根據這些參數合成語音聲波。
爲分析合成語音對真實語音的重現準確度,研究人員將原始語音與合成語音的聲波特徵做了比較,發現神經網絡解碼的語音,至關完整地重現了患者所述原始語句中的單個音素,以及音素間的天然鏈接和停頓。
原始語音聲波(上)與合成語音聲波(下)對比
以後,研究人員以衆包方式,讓網友來辨認解碼器合成的語音。最後結果是,傾聽者複述合成語音內容的成功率接近70%。
此外,研究人員還測試瞭解碼器對於不出聲說話的語音合成能力。測試者先說出一個句子,而後默唸同一個句子(有動做,但不出聲)。結果顯示,解碼器對默唸動做合成的語音頻譜與同一句子的有聲頻譜是類似的。
口語句子神經解碼的語音合成演示
「這項研究首次代表,咱們能夠根據我的的大腦活動生成完整的口語句子,」Edward Chang 說,「這使人振奮。這是已經觸手可及的技術,咱們應該可以爲語言功能丟失患者,構建具備臨牀可行性的設備。」
Edward Chang 博士的研究重點是
言語、運動和人類情感的大腦機制
論文第一做者 Gopala Anumanchipalli 補充說:「我很自豪可以將神經科學,語言學和機器學習的專業知識,做爲幫助神經殘疾患者這一重要里程碑的一部分。」
固然,要真正地百分百實現語音合成的腦機接口語音交互,依然存在不少挑戰,好比患者是否能接受侵入式手術安裝電極、實驗中的腦電波是否與真實患者的腦電波相同等等。
可是,從這項研究中,咱們看到了語音合成腦機接口再也不是一個概念。
期待將來某一天,語言障礙患者可以早日重獲「說話」的能力,早日傾吐他們的心聲。
前饋神經網絡 Feedforward Neural Networks
前饋神經網絡是人工智能領域中,最先發明的簡單人工神經網絡類型。在它內部,參數從輸入層向輸出層單向傳播。有異於遞歸神經網絡,它的內部不會構成有向環。
前饋(feedforward)也能夠稱爲前向,從信號流向來理解就是輸入信號進入網絡後,信號流動是單向的,即信號從前一層流向後一層,一直到輸出層,其中任意兩層之間的鏈接並無反饋(feedback),亦即信號沒有從後一層又返回到前一層。若是從輸入輸出關係來理解,則爲當輸入信號進入後,輸入層以後的每個層都將前一個層的輸出做爲輸入。
當前饋神經網絡中層與層之間的信號有反向流動,或者自輸入時,咱們則稱這種網絡爲循環神經網絡。
在深度前饋網絡中,鏈式結構也就是層與層之間的鏈接方式,層數就表明網絡深度。