爲什麼有必要進修統計機器學習?程序員
由於你沒有那麼多的數據網絡
由於未知的東西最終仍是需理論所解釋dom
基於規則?基於機率?機器學習
---- 圖靈獎得主、貝葉斯之父 Judea Pearl 談深度學習侷限,想造自由意志機器人ide
從科學角度來講,基於規則的系統就是錯誤的。它們爲專家建模,而不是對疾病自己建模。函數
問題在於,程序員建立的規則沒有正確的組合。當添加更多新的規則時,你必須撤消舊的規則。它是一個很是脆弱的系統。學習
例如,若是醫院出現程序上的變更,整個系統都必須得重寫。並且咱們這裏談的規則不是一兩個,而是有數百個,包括專家(在這個例子中是醫生)理解的全部互動方式;當專家輸入100 條規則,可能就已經忘了前面幾條。大數據
我不喜歡基於規則的系統的另外一個緣由是它不具備科學透明性。我很懶。因此我須要瞭解我在作什麼,我須要瞭解它的數學理據。基於規則的系統在數學上是不穩定的。優化
數學能夠優雅地告訴你:「若是你的過程沒出錯,就能保證得出肯定的結果。」這種保證使人愉快,但基於規則的系統缺少這種保證。搜索引擎
上世紀 80 年代初,咱們從基於規則的系統轉變爲貝葉斯網絡時,出現了一種新的思路。貝葉斯網絡是一個機率推理系統。
專家能夠把本身對所在領域的專業知識輸入其中,這和專家系統的目標是一致的。這一思路是對某個領域而不是應用過程建模。拿疾病的例子來講,你須要把疾病相關的局部機率知識和相關變量表現形式輸入,若是你觀察到一些證據,計算機將會採納並在須要的時候激活這些機率知識,併爲你計算出新的證據所須要的修正機率。
專家系統能在小數據提供精確的回答,但專家的知識自己就具備「侷限性」。
世界是機率的,且目前人類已經具有處理大數據的能力,大數據便意味着「大數收斂」,這個世界的將來,畢竟仍是機率的。
失去透明性
貝葉斯網絡主要賣點:可重組和透明
問題在於緊湊性和速度,這是兩個主要的障礙。理論上,信念修正須要指數級的時間和指數級的存儲能力,而這些難以提供。
知識構建者理解哪些事實是相關的,哪些是無關的,這是咱們的優點。這給了咱們一個稀疏的網絡,而當你有一個稀疏的網絡,就能夠利用它的稀疏性,得到速度和緊湊性。
貝葉斯網絡是一種在告訴它初始信念後,快速計算出修正信念的方式。這顯然是飛躍性的進步,由於它具備機率演算的全部有利屬性,再加上基於規則的系統的程序優點。並且,它是透明的。
咱們如今的深度學習失去了透明性。我有跟那些說深度學習「效果很好」的用戶交談過,但他們不知道爲何效果好。一旦解開了它的束縛,它會有本身的動態性,會本身作修復,作優化,並且大多數狀況下能得出正確的結果。但當它被束縛,你就沒有線索知道它哪裏出了錯,哪裏須要修復。這是讓我擔憂的事情。
插播:機器學習專家與統計學家觀點上有哪些不一樣?
做者:麥子
共同點:
統計建模或者機器建模的目的都是從數據中挖掘到感興趣的信息。下面只討論supervised learning, 就是對一個pair:
( 自變量x,因變量y)進行建模。 也就是找到一個函數 y=f(x) , 用x 來刻畫 (解釋、預測)y。
首先咱們要一組觀察值(x,y),來 迴歸(learn)這個未知的函數 f。
區別:
統計學家: 在刻畫 f 的過程當中,統計學家用的方法是: 對於 f 的形狀和 y 的random distribution 進行一些假設。
好比說假設 f 是線性模型, 或者y 是normal distribution。
而後來求在必定標準下最優的 f。
好比說,在BLUE (Best Linear Unbiased Estimators 最佳線性無偏估計)的標準下,最小二乘估計出來的 f 就是最好的估計。
而後根據對數據的distribution的假設或者是大數定律,能夠求出 參數估計的不肯定性 或者是 standard error。
進而構建置信區間,來表達我對我能作出的 f 的最好的估計 的信心。
優勢: 能夠對不肯定性度量。 簡單模型的可解釋性強。當假設的assumptions知足時模型科學、準確、嚴謹。
缺點:複雜狀況下assumptions難以驗證。
機器學習專家:不對 y 的distribution進行過多的假設,不計算standar error,不 care bias。 經過 cross validation來判斷 對於 f 的估計的好壞。
也就是說,在機器學習領域,數據量大,機器學習專家拿一部分來估計(train,learn )f,留一部分來驗證預測結果的好壞。預測結果好的模型就是好模型,不計算估計參數的誤差。
缺點: 缺少科學嚴謹性。
優勢: 簡單粗暴。 有一次聽一個大牛的seminar幾個教授的段子記憶尤新:"those machine learning people are making predictions without probability! "。成爲了一門玄學。
對於這句話:「統計學家更關心模型的可解釋性,而機器學習專家更關心模型的預測能力」 : 整體來講,可解釋性強的模型會損失預測能力,預測能力強的模型每每比較難解釋。
常見的模型中,"可解釋性強 --> 預測強" 的模型依順序排列是
構建簡單的模型,好比線性模型,更容易解釋因變量對自變量的影響。 適合於那種目的是解釋一個變量對另一個變量的影響的問題。也是經典統計中最經常使用到的模型。
變化再多一些,非線性模型,非參模型,更靈活,選擇更多,因此可能達到更好的預測效果。可是每每比較難解釋x對y的影響。(這些模型都來源於統計,推廣於機器學習。這些模型都是幾十年前統計的研究成果了好麼!!由於最近計算機速度提上來了,原來沒名氣,是由於計算速度帶不動,數據沒收集辣麼多啊!!)!
由於機器學習領域的數據大,運算能力強,因此能把複雜的非參或者非線性模型用的效果比較好。
那麼,爲何要學統計機器學習?
Can you guarantee a certain level of inferential accuracy within a certain time budget even as the data grow in size.
Link:
History of Bayesian Neural Networks
如何增強透明性
這即是Bayesian Deep Learning的價值。
From: Deep Learning Is Not Good Enough, We Need Bayesian Deep Learning for Safe AI
Epistemic and aleatoric uncertainty.
認知和偶然的不肯定性