Transformer LambdaNetworks

 

 

因爲 Transformer 注意力機制對內存的需求是輸入圖像的二次方,因此這一方向還存在一些挑戰。

近日,LambdaNetworks 的出現提供了一種解決此問題的方法,人們能夠無需創建昂貴的注意力圖便可捕捉長距離交互。這一方法在 ImageNet 上達到了新的業界最佳水平(state-of-the-art)。

git

 

論文連接:https://openreview.net/pdf?id=xTJEN-ggl1bgithub


GitHub連接:https://github.com/lucidrains/lambda-networks

對長程交互進行建模在機器學習中相當重要。注意力已成爲捕獲長程交互的一種經常使用範式。可是,自注意力二次方式的內存佔用已經阻礙了其對長序列或多維輸入(例如包含數萬個像素的圖像)的適用性。例如,將單個多頭注意力層應用於一批 256 個64x64 (8 頭)輸入圖像須要32GB的內存,這在實踐中是不容許的。


框架

 

該研究提出了一種名爲「lambda」的層,這些層提供了一種捕獲輸入和一組結構化上下文元素之間長程交互的通用框架。

lambda 層將可用上下文轉換爲單個線性函數(lambdas)。這些函數直接單獨應用於每一個輸入。研究者認爲,lambda 層能夠做爲注意力機制的天然替代。注意力定義了輸入元素和上下文元素之間的類似性核,而 lambda 層將上下文信息彙總爲固定大小的線性函數,從而避免了對內存消耗大的注意力圖的需求。這種對好比圖1所示。

機器學習

相關文章
相關標籤/搜索