機器學習瓶頸 - 從黑盒白盒之爭提及

瓶頸

任何事物的發展都會遇到瓶頸。半導體業界的摩爾定律在很長的一段時間裏面一直是有效的,可是在近幾年也快走到盡頭了。
機器學習在AlphaGo打敗人類棋手以後,名聲大噪,我也是在那次比賽以後開始研究機器學習的。機器學習這項技術是否是有一個天花板,這個天花板在哪裏,咱們如今的技術發展離開這個天花板到底有多遠,咱們是在地板上呢,仍是快觸碰到天花板了呢?html

在五年前,Intel公司的CEO就拋出了沒法繼續摩爾定律的危機說。摩爾定律由英特爾聯合創始人戈登-摩爾(Gordon Moore)提出,意思是說:當價格不變時,集成電路上可容納的晶體管數目,約每隔 18 個月便會增長一倍,性能也將提高一倍。換言之,每一美圓所能買到的電腦性能,將每隔 18 個月翻兩倍以上。這個定律雖然奏效了數十年,可是從2018年開始,這個定律就已經失效程序員

摩爾定律

黑盒白盒之爭

在知乎上有這樣一篇文章算法

https://zhuanlan.zhihu.com/p/21362413?fc=1&group_id=821400638150828032#comment-145854724網絡

大概的意思是用一個神經網絡來調控另外一個神經網絡!
之前,雖然咱們不知道AlphaGo是怎麼想的,可是咱們知道它是怎麼學的,
之後,咱們不但不知道AlphaGo是怎麼想的,咱們還不知道它是怎麼學的!!!機器學習

人工智能究竟是黑盒仍是白盒?在評論裏面關於這個話題,你們產生了很大的分歧。
做爲傳統的程序員,個人觀點以下:固然若是您有時間,能夠看一下評論,很是精彩。函數

神經網絡本身調整本身

1.ML 歸根究竟是程序,若是LOG足夠多的話,若是你足夠耐心的話,你確定能夠知道,結果是如何產生的。
2.用神經網絡去優化神經網絡,其本質是同樣的,就想加法變成乘法,可是尚未脫離實數的範圍,到達一個更高的維度。
3.ML的程序,包括無監督的程序,都是人寫的,都是按照人的想法在執行的,因此,爲何人不知道機器是怎麼想的?即便這個程序表現得再難以想象,但結果應該都在人的預料之中。AlphaGo爲何會作決定,背後是程序,程序的背後是寫程序的人的想法。除非是真正的隨機函數,否則,寫程序的人確定知道程序是如何運行和預想結果的。
總結:不知道程序是怎麼想的,只是由於你不肯意去閱讀程序的日誌和不肯意調試程序。若是有無窮的時間,你單步調試全部的代碼,你確定知道這個結果是怎麼來的。性能

若是整個機器學習慢慢進入黑盒的時代,則能夠預測,瓶頸快到了。咱們不知道機器究竟是怎麼學習的,咱們就沒法進行改進。就像咱們不知道雨水的造成機理,咱們光在地上求雨是徒勞的。學習

隨機森林和Dropout

不少算法中,均可以看到隨機的影子,RF的話,也就是屢次隨機抽取樣本,訓練模型,這些模型再進行平均操做。固然,這是根據中心極限理論得出的好方法。神經網絡的Dropout也是如此,隨機的將一些神經節點進行屏蔽。可是隨機就意味着失控,意味着人工很難干預結果。包括梯度降低,是否能收斂到全局最優解,很大程度上也是有運氣成分在裏面的。初始值,學習率都是影響結果的因素。優化

Dropout

調參數和巨大模型

如今不少機器學習的比賽,已經從技術比拼轉向資源比拼了。
神經網絡的層數愈來愈長,愈來愈深,微軟的神經網絡是152層。
阿里巴巴的機器學習模型,已是3GB的龐然大物了。
整個業界都從硬件和物理層面去得到精度的收益了。
同時,超參數的選取,如今也都是經驗論:人工智能

神經網絡的層數

咱們首先須要肯定網絡的層數和每層的節點數。關於第一個問題,實際上並無什麼理論化的方法,你們都是根據經驗來拍,若是沒有經驗的話就隨便拍一個。而後,你能夠多試幾個值,訓練不一樣層數的神經網絡,看看哪一個效果最好就用哪一個。嗯,如今你可能明白爲何說深度學習是個手藝活了,有些手藝很讓人無語,而有些手藝仍是頗有技術含量的。

K聚類的K取多少,天然語言處理的主題模型,主題數選擇多少比較合適等等。都尚未,或者難以找到理論依據。

機器學習仍是數理統計

機器學習的本質就是數理統計?答案可能沒這麼簡單
http://tech.sina.com.cn/roll/2017-03-27/doc-ifycspxp0038858.shtml

若是從傳統意義上的數據分析師的觀點來講,這個問題的答案很簡單,無非是下面這兩點:
機器學習本質上是一種算法,這種算法由數據分析習得,並且不依賴於規則導向的程序設計;
統計建模則是以數據爲基礎,利用數學方程式來探究變量變化規律的一套規範化流程。

有一種觀點就是機器學習只是數理統計的一個華麗包裝而已。
在天然語言處理裏面,本來是語言學家佔主導的,而後慢慢的統計學家開始佔上風,特別是在翻譯領域,基本上都是靠強大的計算能力和巨大的模型在處理問題,也就是說從規則到統計的轉變。
若是說,機器學習的本質仍是統計學的話,統計學,機率學這些東西,其實已經發展到盡頭,很難再有什麼革命性的突破了。是否是也意味着機器學習也走到盡頭了呢?

腦科學研究

機器學習在很大程度上是對於大腦工做原理的仿生學。我以爲,機器學習的發展確定和人類對於大腦研究的發展密不可分,神經網絡就是一個例子。也有可能在多年以後,咱們會發現大腦的工做原理和咱們如今的認知徹底不一樣,這樣的話,當前的機器學習頗有可能會被徹底推翻,走向一條新的道路。

腦科學

相關文章
相關標籤/搜索