[Bayes] *Bayesian Deep Learning for Transparency Improvement

爲什麼有必要進修統計機器學習?程序員

由於你沒有那麼多的數據網絡

由於未知的東西最終仍是需理論所解釋dom


 

基於規則?基於機率?機器學習

                   ---- 圖靈獎得主、貝葉斯之父 Judea Pearl 談深度學習侷限,想造自由意志機器人ide

從科學角度來講,基於規則的系統就是錯誤的。它們爲專家建模,而不是對疾病自己建模。函數

問題在於,程序員建立的規則沒有正確的組合。當添加更多新的規則時,你必須撤消舊的規則。它是一個很是脆弱的系統。學習

例如,若是醫院出現程序上的變更,整個系統都必須得重寫。並且咱們這裏談的規則不是一兩個,而是有數百個,包括專家(在這個例子中是醫生)理解的全部互動方式;當專家輸入100 條規則,可能就已經忘了前面幾條。大數據

我不喜歡基於規則的系統的另外一個緣由是它不具備科學透明性。我很懶。因此我須要瞭解我在作什麼,我須要瞭解它的數學理據。基於規則的系統在數學上是不穩定的。優化

數學能夠優雅地告訴你:「若是你的過程沒出錯,就能保證得出肯定的結果。」這種保證使人愉快,但基於規則的系統缺少這種保證。搜索引擎

 

上世紀 80 年代初,咱們從基於規則的系統轉變爲貝葉斯網絡時,出現了一種新的思路。貝葉斯網絡是一個機率推理系統。

專家能夠把本身對所在領域的專業知識輸入其中,這和專家系統的目標是一致的。這一思路是對某個領域而不是應用過程建模。拿疾病的例子來講,你須要把疾病相關的局部機率知識和相關變量表現形式輸入,若是你觀察到一些證據,計算機將會採納並在須要的時候激活這些機率知識,併爲你計算出新的證據所須要的修正機率。

 

專家系統能在小數據提供精確的回答,但專家的知識自己就具備「侷限性」。

世界是機率的,且目前人類已經具有處理大數據的能力,大數據便意味着「大數收斂」,這個世界的將來,畢竟仍是機率的。

 

失去透明性

貝葉斯網絡主要賣點:可重組和透明

  問題在於緊湊性和速度,這是兩個主要的障礙。理論上,信念修正須要指數級的時間指數級的存儲能力,而這些難以提供。

  知識構建者理解哪些事實是相關的,哪些是無關的,這是咱們的優點。這給了咱們一個稀疏的網絡,而當你有一個稀疏的網絡,就能夠利用它的稀疏性,得到速度和緊湊性。

     貝葉斯網絡是一種在告訴它初始信念後,快速計算出修正信念的方式。這顯然是飛躍性的進步,由於它具備機率演算的全部有利屬性,再加上基於規則的系統的程序優點。並且,它是透明的。

 

咱們如今的深度學習失去了透明性。我有跟那些說深度學習「效果很好」的用戶交談過,但他們不知道爲何效果好。一旦解開了它的束縛,它會有本身的動態性,會本身作修復,作優化,並且大多數狀況下能得出正確的結果。但當它被束縛,你就沒有線索知道它哪裏出了錯,哪裏須要修復。這是讓我擔憂的事情。

 


 

插播:機器學習專家與統計學家觀點上有哪些不一樣?

做者:麥子

連接:https://www.zhihu.com/question/29687860/answer/45794666
來源:知乎

共同點:

統計建模或者機器建模的目的都是從數據中挖掘到感興趣的信息。下面只討論supervised learning, 就是對一個pair:

( 自變量x,因變量y)進行建模。 也就是找到一個函數 y=f(x) , 用x 來刻畫 (解釋、預測)y。

首先咱們要一組觀察值(x,y),來 迴歸(learn)這個未知的函數 f。

 

區別:

統計學家: 在刻畫 f 的過程當中,統計學家用的方法是: 對於 f 的形狀y 的random distribution 進行一些假設。

好比說假設 f 是線性模型, 或者y 是normal distribution。

而後來求在必定標準下最優的 f。

好比說,在BLUE (Best Linear Unbiased Estimators 最佳線性無偏估計)的標準下,最小二乘估計出來的 f 就是最好的估計。

而後根據對數據的distribution的假設或者是大數定律,能夠求出 參數估計的不肯定性 或者是 standard error。

進而構建置信區間,來表達我對我能作出的 f 的最好的估計 的信心。

 

優勢: 能夠對不肯定性度量。 簡單模型的可解釋性強。當假設的assumptions知足時模型科學、準確、嚴謹。

缺點:複雜狀況下assumptions難以驗證。


機器學習專家:不對 y 的distribution進行過多的假設不計算standar error不 care bias。 經過 cross validation來判斷 對於 f 的估計的好壞。

也就是說,在機器學習領域,數據量大,機器學習專家拿一部分來估計(train,learn )f,留一部分來驗證預測結果的好壞。預測結果好的模型就是好模型,不計算估計參數的誤差。

 

 

缺點: 缺少科學嚴謹性。

優勢: 簡單粗暴。 有一次聽一個大牛的seminar幾個教授的段子記憶尤新:"those machine learning people are making predictions without probability! "。成爲了一門玄學。

 

對於這句話:「統計學家更關心模型的可解釋性,而機器學習專家更關心模型的預測能力」 : 整體來講,可解釋性強的模型會損失預測能力,預測能力強的模型每每比較難解釋。

常見的模型中,"可解釋性強 --> 預測強" 的模型依順序排列是

    1. Lasso+線性迴歸     // least absolute shrinkage and selection operator
    2. 線性迴歸
    3. 非線性模型
    4. 非參模型
    5. SVM

構建簡單的模型,好比線性模型,更容易解釋因變量對自變量的影響。 適合於那種目的是解釋一個變量對另一個變量的影響的問題。也是經典統計中最經常使用到的模型。

變化再多一些,非線性模型,非參模型,更靈活,選擇更多,因此可能達到更好的預測效果。可是每每比較難解釋x對y的影響。(這些模型都來源於統計,推廣於機器學習。這些模型都是幾十年前統計的研究成果了好麼!!由於最近計算機速度提上來了,原來沒名氣,是由於計算速度帶不動,數據沒收集辣麼多啊!!)!

由於機器學習領域的數據大,運算能力強,因此能把複雜的非參或者非線性模型用的效果比較好。

 

各自的領域優點?

在一些傳統領域,工程實驗,生物試驗,社會調查,物理實驗,咱們 能得到的數據量很是小,咱們必須當心翼翼的對待咱們的模型,從有限的數據中提取儘可能可能多的信息。抑或是一些對參數很敏感的預測,差之毫釐失之千里,
好比檢驗一個艾滋病新葯物是否有效,來決定要不要投入funding去進行研發,咱們就要用嚴謹的機率統計模型。 (我的作項目,小公司作項目,數據量不大,或者項目具備惟一性,那麼統計機器學習即是必要的)

可是在搜索引擎,淘寶用戶購買信息,人臉特徵識別等領域,咱們可以得到很大量的數據,並且數據維度也很是高,用傳統方式建模,頗有可能維度高到嚴謹的function根本解不出來,機器學習的理論就很是有效了。
 

那麼,爲何要學統計機器學習?

Can you guarantee a certain level of inferential accuracy within a certain time budget even as the data grow in size.

 

Link: 

History of Bayesian Neural Networks

PPT

  


 

如何增強透明性

這即是Bayesian Deep Learning的價值。

From: Deep Learning Is Not Good Enough, We Need Bayesian Deep Learning for Safe AI

 

 

 

Epistemic and aleatoric uncertainty.

認知和偶然的不肯定性

 

 

 

 

  GMIS 2017 | 清華大學朱軍詳解珠算:貝葉斯深度學習的GPU庫(附視頻)

相關文章
相關標籤/搜索