OpnAI推出深度神經網絡模型 擁有自我注意力機制

OpnAI近日開發了一套深度神經網絡模型Sparse Transformer,透過改良過的注意力(attention)機制算法,來萃取出更多序列中的模式,進而預測出序列中下一段文字、圖像或是語音,OpenAI指出,在AI研究領域現存的一項挑戰就是,訓練並預測長範圍、不易察覺相互關係的複雜數據,像是圖像、影片或是語音等數據,Sparse Transformer模型加入了自我注意力機制,再加上一些改良,試着解決這項挑戰。算法

過去,用於預測這些數據的模型,都會特定爲一個領域所設計,或是模型也很難擴展到多個不一樣的序列上,相反地,OpenAI此次開發的深度神經網絡模型,能夠利用好幾百層神經網絡,爲數萬個數據元素創建序列,用於跨多個領域的應用中,OpenAI將用這套模型,來協助打造出更瞭解世界的AI系統。網絡

在Transformer模型中,每一個輸出元素都與輸入元素都息息相關,且在每一個輸入和輸出數據之間的權重,都是動態改變的,權重會依據各類狀況來計算,這個過程稱之爲注意力(attention)機制,雖然這項機制被認爲可以使Transformer比固定鏈接模式的模型,更加有彈性,可是實行上來講,每一層網絡都要生成N x N的注意力矩陣,所以,用於數據類型含有多個元素的數據時,會須要耗費龐大的內存計算資源,像是影像或是原始語音文件。架構

其中一項下降內存資源的方式,就是在反向傳播算法(backpropagation)中,從checkpoints從新計算注意力矩陣,反向傳播算法是在深度學習中,被普遍應用於下降內存用量的sbf勝博技術,該技術用於Transformer注意力矩陣運算後,內存成本和層數就會無關,所以,相比以往,OpenAI如今可以訓練更深的神經網絡,在OpenAI的實驗中,Transformer最多可以到128層,爲了訓練這些越深的模型,OpenAI還針對Transformer模型的操做順序,以及scheme初始化作了一些調整,OpenAI也將詳細的研究內容發表成論文。學習

可是,即便只計算單一個注意力矩陣,也會由於龐大的輸入數據變得不切實際,所以,OpenAI改用稀疏(sparse)注意力模式,也就是隻針對每一個輸出位置,從輸入位置的子集合中計算權重,當子集合比整個輸入集相對小時,就算是很是大的序列,注意力計算結果也會變得較容易處理。spa

爲了實現該方法,OpenAI首先將用於預測影像的Transformer模型中的學習注意力模式可視化,找出許多可解釋和結構化的稀疏模式,當輸入部分聚焦於小的子集上,且出現高度的規則性時,該層就屬於易稀疏化,不過,雖然有許多層都顯現出稀疏的架構,有些層在整張圖上仍是會清楚地出現動態的注意力,爲了保留模型學習這類型模式的能力,OpenAI對注意力矩陣進行二維分解,所以,模型就能夠透過稀疏注意力,來檢視圖像中的全部位置。設計

相關文章
相關標籤/搜索