[Bayes] *Bayesian Deep Learning for Transparency Improvement

時間 2019-11-18

標籤 bayes bayesian deep learning transparency improvement 简体版

原文原文鏈接

爲什麼有必要進修統計機器學習？程序員

由於你沒有那麼多的數據網絡

由於未知的東西最終仍是需理論所解釋dom

基於規則？基於機率？機器學習

---- 圖靈獎得主、貝葉斯之父 Judea Pearl 談深度學習侷限，想造自由意志機器人ide

從科學角度來講，基於規則的系統就是錯誤的。它們爲專家建模，而不是對疾病自己建模。函數

問題在於，程序員建立的規則沒有正確的組合。當添加更多新的規則時，你必須撤消舊的規則。它是一個很是脆弱的系統。學習

例如，若是醫院出現程序上的變更，整個系統都必須得重寫。並且咱們這裏談的規則不是一兩個，而是有數百個，包括專家（在這個例子中是醫生）理解的全部互動方式；當專家輸入100 條規則，可能就已經忘了前面幾條。大數據

我不喜歡基於規則的系統的另外一個緣由是它不具備科學透明性。我很懶。因此我須要瞭解我在作什麼，我須要瞭解它的數學理據。基於規則的系統在數學上是不穩定的。優化

數學能夠優雅地告訴你：「若是你的過程沒出錯，就能保證得出肯定的結果。」這種保證使人愉快，但基於規則的系統缺少這種保證。搜索引擎

上世紀 80 年代初，咱們從基於規則的系統轉變爲貝葉斯網絡時，出現了一種新的思路。貝葉斯網絡是一個機率推理系統。

專家能夠把本身對所在領域的專業知識輸入其中，這和專家系統的目標是一致的。這一思路是對某個領域而不是應用過程建模。拿疾病的例子來講，你須要把疾病相關的局部機率知識和相關變量表現形式輸入，若是你觀察到一些證據，計算機將會採納並在須要的時候激活這些機率知識，併爲你計算出新的證據所須要的修正機率。

專家系統能在小數據提供精確的回答，但專家的知識自己就具備「侷限性」。

世界是機率的，且目前人類已經具有處理大數據的能力，大數據便意味着「大數收斂」，這個世界的將來，畢竟仍是機率的。

失去透明性

貝葉斯網絡主要賣點：可重組和透明

　　問題在於緊湊性和速度，這是兩個主要的障礙。理論上，信念修正須要指數級的時間和指數級的存儲能力，而這些難以提供。

　　知識構建者理解哪些事實是相關的，哪些是無關的，這是咱們的優點。這給了咱們一個稀疏的網絡，而當你有一個稀疏的網絡，就能夠利用它的稀疏性，得到速度和緊湊性。

貝葉斯網絡是一種在告訴它初始信念後，快速計算出修正信念的方式。這顯然是飛躍性的進步，由於它具備機率演算的全部有利屬性，再加上基於規則的系統的程序優點。並且，它是透明的。

咱們如今的深度學習失去了透明性。我有跟那些說深度學習「效果很好」的用戶交談過，但他們不知道爲何效果好。一旦解開了它的束縛，它會有本身的動態性，會本身作修復，作優化，並且大多數狀況下能得出正確的結果。但當它被束縛，你就沒有線索知道它哪裏出了錯，哪裏須要修復。這是讓我擔憂的事情。

插播：機器學習專家與統計學家觀點上有哪些不一樣？

做者：麥子

連接：https://www.zhihu.com/question/29687860/answer/45794666
來源：知乎

共同點：

統計建模或者機器建模的目的都是從數據中挖掘到感興趣的信息。下面只討論supervised learning，就是對一個pair:

( 自變量x，因變量y）進行建模。也就是找到一個函數 y=f(x) ，用x 來刻畫（解釋、預測）y。

首先咱們要一組觀察值（x,y），來迴歸（learn）這個未知的函數 f。

區別：

統計學家：在刻畫 f 的過程當中，統計學家用的方法是：對於 f 的形狀和 y 的random distribution 進行一些假設。

好比說假設 f 是線性模型，或者y 是normal distribution。

而後來求在必定標準下最優的 f。

好比說，在BLUE （Best Linear Unbiased Estimators 最佳線性無偏估計）的標準下，最小二乘估計出來的 f 就是最好的估計。

而後根據對數據的distribution的假設或者是大數定律，能夠求出參數估計的不肯定性或者是 standard error。

進而構建置信區間，來表達我對我能作出的 f 的最好的估計的信心。

優勢：能夠對不肯定性度量。簡單模型的可解釋性強。當假設的assumptions知足時模型科學、準確、嚴謹。

缺點：複雜狀況下assumptions難以驗證。

機器學習專家：不對 y 的distribution進行過多的假設，不計算standar error，不 care bias。經過 cross validation來判斷對於 f 的估計的好壞。

也就是說，在機器學習領域，數據量大，機器學習專家拿一部分來估計（train，learn ）f，留一部分來驗證預測結果的好壞。預測結果好的模型就是好模型，不計算估計參數的誤差。

缺點：缺少科學嚴謹性。

優勢：簡單粗暴。有一次聽一個大牛的seminar幾個教授的段子記憶尤新："those machine learning people are making predictions without probability! "。成爲了一門玄學。

對於這句話：「統計學家更關心模型的可解釋性，而機器學習專家更關心模型的預測能力」：整體來講，可解釋性強的模型會損失預測能力，預測能力強的模型每每比較難解釋。

常見的模型中，"可解釋性強 --> 預測強" 的模型依順序排列是

1. Lasso+線性迴歸 // least absolute shrinkage and selection operator
2. 線性迴歸
3. 非線性模型
4. 非參模型
5. SVM

構建簡單的模型，好比線性模型，更容易解釋因變量對自變量的影響。適合於那種目的是解釋一個變量對另一個變量的影響的問題。也是經典統計中最經常使用到的模型。

變化再多一些，非線性模型，非參模型，更靈活，選擇更多，因此可能達到更好的預測效果。可是每每比較難解釋x對y的影響。（這些模型都來源於統計，推廣於機器學習。這些模型都是幾十年前統計的研究成果了好麼！！由於最近計算機速度提上來了，原來沒名氣，是由於計算速度帶不動，數據沒收集辣麼多啊！！）！

由於機器學習領域的數據大，運算能力強，因此能把複雜的非參或者非線性模型用的效果比較好。

各自的領域優點？

在一些傳統領域，工程實驗，生物試驗，社會調查，物理實驗，咱們 能得到的數據量很是小，咱們必須當心翼翼的對待咱們的模型，從有限的數據中提取儘可能可能多的信息。抑或是一些對參數很敏感的預測，差之毫釐失之千里，

好比檢驗一個艾滋病新葯物是否有效，來決定要不要投入funding去進行研發，咱們就要用嚴謹的機率統計模型。（我的作項目，小公司作項目，數據量不大，或者項目具備惟一性，那麼統計機器學習即是必要的）

可是在搜索引擎，淘寶用戶購買信息，人臉特徵識別等領域，咱們可以得到很大量的數據，並且數據維度也很是高，用傳統方式建模，頗有可能維度高到嚴謹的function根本解不出來，機器學習的理論就很是有效了。

那麼，爲何要學統計機器學習？

Can you guarantee a certain level of inferential accuracy within a certain time budget even as the data grow in size.

Link:

History of Bayesian Neural Networks

PPT

如何增強透明性

這即是Bayesian Deep Learning的價值。

From: Deep Learning Is Not Good Enough, We Need Bayesian Deep Learning for Safe AI

Epistemic and aleatoric uncertainty.

認知和偶然的不肯定性

　　GMIS 2017 | 清華大學朱軍詳解珠算：貝葉斯深度學習的GPU庫（附視頻）

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。