貝葉斯深度學習-概述

時間 2019-11-13

標籤貝葉深度學習概述简体版

原文原文鏈接

1、背景

1.1 深度神經網絡

深度神經網絡是鏈接主義系統，經過它經過學習例子來完成任務，而不須要事先了解這些任務。它們能夠很容易地擴展到數百萬個數據點，而且能夠經過隨機梯度降低進行優化。

CNN是DNN的變體，可以適應各類非線性數據點。起始層學習更簡單的特徵，如邊和角，後續層學習複雜的特徵，如顏色，紋理等。此外，較高的神經元具備較大的感覺野，構建在起始層上。然而，與多層感知器不一樣， 權重共享是卷積神經網絡背後的主要思想。

1.2 問題

CNN經過反向傳播，根據網絡權重計算損失梯度。而反向傳播的超參數包括學習速率，動量，權重衰減等。找到最佳值所需的時間與數據大小成比例。

然而對於使用反向傳播訓練的網絡，僅在網絡中實現權重的點估計，從而致使對正確的類別、預測或行動作出過於自信的決定。（因爲輸出層的softmax函數能夠實現機率得分，它壓縮了一個類的輸出機率得分，並使另外一個類的輸出機率得分最大化）。這樣的網絡能較好地擬合訓練數據，但不能預測新數據-即產生了對現有樣本的過分擬合。

目前主要經過正則化來消除過擬合，主要包括early stopping、權值衰減、L1- L2正則化，以及最流行和有效的dropout。可是，當前神經網絡架構中缺乏預測中的不肯定性度量。

2、機率機器學習和不肯定性

機器學習訓練模型模型從觀察到的數據（訓練數據）中學習一些模式和假設，並對未觀察到的數據（測試數據）進行推斷。然而，因爲輸入數據噪聲、感官噪聲、測量偏差、非最優超參數設置等諸多緣由，該模型對預測具備不肯定性。

從機率論的角度來看，用單點估計做爲權重來創建任何分類都是不合理的，並且神經網絡沒法正確評估訓練數據中的不肯定性。機器學習中的機率模型指出，全部形式的不肯定性不多是一個真實的值，而更像是一個機率值，並使用機率論來回答一切問題。機率分佈用於建模學習、不肯定性和未觀測狀態。在觀察數據以前，先定義一個先驗機率分佈，而後進行學習，一旦觀察到數據，該分佈就轉換爲後驗分佈。

2.1 不肯定性類型

網絡中的不肯定性是衡量模型對其預測肯定程度的指標。在貝葉斯模型中，存在兩種主要的不肯定性類型： 偶然不肯定性（Aleatoric uncertainty）和 認知不肯定性（Epistemic uncertainty）。

偶然不肯定性測量觀測中固有的噪聲。這種不肯定性存在於數據採集方法中，如傳感器噪聲或沿數據集均勻分佈的運動噪聲。即便收集了更多的數據，也不能減小這種不肯定性。

偶然不肯定性能夠進一步分爲同方差不肯定性（Task-dependant or Homoscedastic uncertainty）和異方差不肯定性（Data-dependant or Heteroscedastic uncertainty）

· 異方差不肯定性，取決於輸入數據，並預測爲模型輸出。其中一些輸入可能具備比其餘輸入更多的噪聲輸出。異方差的不肯定性尤其重要，能夠防止模型輸出很是自信的決策。

· 同方差不肯定性，不取決於輸入數據。它不是模型輸出，而是一個對全部輸入數據保持不變而且在不一樣任務之間變化的數量。所以，它能夠被描述爲任務相關的不肯定性。

認知不肯定性表明了模型自己形成的不肯定性。給定更多數據能夠減小這種不肯定性，而且一般稱爲模型不肯定性。

圖中說明了語義分割中的偶然和認知不肯定性之間的差別。偶然不肯定性捕獲對象邊界時，標籤是有噪聲的；而當模型不熟悉人行道時，以及相應的增長的認知不肯定性，就致使了分割模型失敗的狀況。

3、貝葉斯深度學習

3.1 介紹

貝葉斯方法能夠用於學習神經網絡權重的機率分佈。將神經網絡中的wi 和 b 由肯定的值變成分佈（distributions）。具體而言，爲彌補反向傳播的不足，經過在模型參數或模型輸出上放置機率分佈來估計。在權重上放置一個先驗分佈，而後嘗試捕獲這些權重在給定數據的狀況下變化多少來模擬認知不肯定性。該方法不是訓練單個網絡，而是訓練網絡集合，其中每一個網絡的權重來自共享的、已學習的機率分佈。