斯坦福大學馬騰宇:沒法理解現有的深度學習算法?那就設計一個能理解的!

做者 | 叢末

編輯 | Camel算法

本科畢業於清華姚班、博士畢業於普林斯頓大學,師從 Sanjeev Arora 教授,馬騰宇做爲 AI 學界一顆冉冉升起的新星,現在已在國際頂級會議和期刊上發表了 20 篇高質量的論文,曾拿下 2018 ACM 博士論文獎等諸多重量級的學術榮譽。微信

日前,在北京智源人工智能研究院主辦的海外學者報告會上,馬騰宇帶來了一場乾貨味十足的報告,不只基於近期聚焦的研究工做「設計顯式的正則化器」分享了理解深度學習的方法,還基於本身的研究經驗分享了很多研究方法論和觀點。
他指出, 如今用來理解深度學習的經常使用方法是隱式的正則化方法,然而他們在研究中發現,顯式的正則化方法多是更好的選擇
同時,他強調, 計算機科學跟物理、生物等傳統科學的不一樣之處在於:能夠不斷地設計新的算法。「雖然咱們沒法理解現有的深度學習算法,但咱們能夠設計咱們既能理解又能保證有效的新算法。」
咱們下面來看馬騰宇的報告內容:

1、爲何過參數化的深度學習模型能實現泛化?

深度學習是馬騰宇研究組的重要研究方向,他們的主要研究思路是從方法論層面,經過一些數學或理論的分析從技術的角度提升深度學習模型的性能。
他指出,從方法論的層面來看,深度學習當前存在的一個很是核心的挑戰就在於須要很大規模的數據才能實現泛化,而且數據量的規模須要大到很是誇張的地步,以致於他認爲學術界很難徹底收集這麼多數據,每每只有工業界能作到。
所以,若是但願深度學習模型減小對數據的依賴,就須要理解如何能用更少的數據來實現深度學習模型的泛化。
那爲何如今過參數化(Overparametrized)的深度學習模型可以泛化呢?
這是由於如今的深度學習模型與以前的模型相比,一個核心區別就在於:此前的傳統觀點認爲,當數據數量遠超過參數數量時,模型才能泛化;而在深度學習時代,觀點則相反,認爲成功的模型應該有更多的參數、更少的數據量。因此如今深度學習模型要實現泛化,須要的參數多於數據量。
然而在深度學習的時代,模型的泛化都很是難以解釋,緣由就是不少傳統的觀點並再也不適用了。 可是有一個傳統的觀點仍是有效的,它就是奧卡姆剃刀定律(Occam's Razor),指的是低複雜度的模型也可能泛化得很好
不過這種「低複雜度」實際上是很難定義的,所以更核心的問題是如何正肯定義模型複雜度,以及咱們能夠經過什麼方法能衡量並找到正肯定義的複雜度。這是他們但願經過一些理論研究來解決的問題。
常見的方法是隱式的正則化方法, 分析該方法能夠聚焦於兩個方面:第一,算法更偏好低複雜度的方案;第二,低複雜度的模型泛化得很好 。分析好這兩個方面, 就能夠理解現有的算法,同時探索新的度量複雜度的方法 ——由於算法偏好的複雜度基本就是正確的複雜度度量方法。
馬騰宇以其團隊開展的一些工做爲例闡述了一些發現:
  • 第一,在模型訓練和收斂方面,學習率相當重要。例如在他們最近的一篇 NeurIPS 論文中證實了,一個使用了大學習率的兩層神經網絡,只能表示線性的函數,於是即便使用了很複雜的模型,在有噪聲的狀況下也只能表示一些很是簡單的解,從而使得模型要比想象中更簡單些,這其實是噪聲在深度學習中起到了正則化的做用。網絡

  • 第二,初始化方法對模型的複雜度,也有一樣的效果。例如 Chizat Bach 在 2019 年發表了一篇論文,證實了大的初始化狀態更容易獲得最小的神經切線核範數解。而他們本身的一些工做,則證實了小的初始化更偏向於獲得更加「豐富」的狀態,會比核狀態更有意思,好比說最小的 L1 解或者原子核範數解。Woodworth 等人有一項工做基本上就說明:一個較小的初始化的模型,會收斂到一個最小的 L1 解而不是 L2 解上。
這些工做的核心思想是,不一樣的算法有不一樣的偏好,而不一樣的偏好則會有不一樣的複雜度量,學習率會有偏好,初始化狀態也有偏好。

2、隱式/算法的正則化是理解深度學習的惟一方法嗎?

若是想要理解深度學習,是否是隻有理解隱式/算法的正則化這一種方法呢?
對此,馬騰宇認爲應該要從新回顧一下經典的方法——理解顯式的正則化方法。他表示, 顯式的正則化方法確實也值得被你們關注,並且從短時間來說,它多是一個更有成效的方法。
隱式/算法的正則化方法,爲了達到要求,須要對算法進行正則化,算法會傾向於得出低複雜度的解。然而從不少算法正則化相關的論文中,他們發如今說明「算法傾向於得出低複雜度的解」方面遭遇瓶頸,而在說明「低複雜度的解泛化得更好」方面則比較簡單。
所以, 顯式的正則化方法多是理解深度學習更好的選擇。
在這種經典的機器學習範式下,重點關注的則是研究怎樣的複雜度可讓模型實現更好的泛化性能。而對於「算法傾向於得出低複雜度的解」這一研究瓶頸,則「全看運氣」。
顯式的正則化方法的不足點是須要改變算法,由於正則化複雜度勢必就會改變算法。然而 其優點在於,不只僅可以理解現有的算法,還能夠設計一些新的複雜度度量或正則器,設計一些新的算法,並將優化和統計數據分離開來
他指出,最近機器學習領域的一個很火的話題是「雙重降低」(Double Descent)現象,就是說測試偏差並非單一降低的,而是雙重降低。而最近他們在一項工做中,嘗試展現的則是在將算法正則化以後,可能就不會再出現雙重降低現象。
2019 年 Nagarajan 等人的一篇 NeurIPS 最佳論文獎展現了一致收斂沒法說明深度學習中發生的現象。他們舉出了一個反例來講明這一點,雖然這個反例很是使人信服,可是僅僅是針對現有算法成立的一個反例。即算法加入正則化以後,這些反例頗有可能就再也不成立了。
那如何檢驗是否作到了將優化和統計數據分離呢?
方法則是,模型在正則化目標函數後,無論使用什麼算法都能實現一樣的泛化能力,這就能說明優化和統計數據分離了。
馬騰宇表示, 他們如今也證實了可以使用顯式的正則化方法來替代隱式的正則化方法,雖然還沒法徹底替代,但他相信正在朝着這個方向前進。

3、沒法理解現有的深度學習算法?那就設計一個能理解的!

在當下 AI 界的廣泛認知中,深度學習的內在機理沒法理解,本質上變成了一個科學問題。對此,馬騰宇指出, 計算機科學跟物理、生物等傳統科學的不一樣之處在於:能夠不斷地設計新的算法。
科學研究的內容更多的是世界上已經發生或存在的客觀現象(好比黑洞),而在計算機科學中,研究者能夠不研究發什麼什麼,而是去研究任何想要研究的事情。
他呼籲道:「雖然咱們沒法理解現有的深度學習算法,但咱們能夠設計咱們既能理解又能保證有效的新算法。我認爲計算機科學領域的研究者能夠把研究作得更主動一些。」
報告中,馬騰宇還基於本身近期的研究工做,事無鉅細地分享了顯式正則化的具體研究示例,AI 科技評論在這裏附上馬博士 PPT 的相關內容:


機器學習

本文分享自微信公衆號 - AI TIME 論道(lundaoAI)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。函數

相關文章
相關標籤/搜索