變分自編碼器（Variational Autoencoder, VAE）通俗教程

時間 2019-12-08

標籤變分編碼器 variational autoencoder vae 通俗教程简体版

原文原文鏈接

原文地址：http://www.dengfanxin.cn/?p=334git

1. 神祕變量與數據集

如今有一個數據集DX(dataset, 也能夠叫datapoints)，每一個數據也稱爲數據點。
咱們假定這個樣本受某種神祕力量操控，可是咱們也無從知道這些神祕力量是什麼？那麼咱們假定這股神祕力量有n個，起名字叫github

網絡

z也起個名字叫神祕組合。架構

一言以蔽之：神祕變量表明了神祕力量的神祕組合關係。
用正經的話說就是：隱變量(latent variable)表明了隱因子(latent factor)的組合關係。函數

這裏咱們澄清一下隸屬空間，假設數據集DX是m個點，這m個點也應該隸屬於一個空間，好比一維的狀況，假如每一個點是一個實數，那麼他的隸屬空間就是實數集，因此咱們這裏定義一個DX每一個點都屬於的空間稱爲XS，咱們在後面提到的時候，你就再也不感到陌生了。學習

神祕變量z能夠確定他們也有一個歸屬空間稱爲ZS。優化

下面咱們就要形式化地構造X與Z的神祕關係了，這個關係就是咱們前面說的神祕力量，直觀上咱們已經很是清楚，假設咱們的數據集就是徹底由這n個神祕變量全權操控的，那麼對於X中每個點都應該有一個n個神祕變量的神祕組合編碼

接下來咱們要將這個關係再簡化一下，咱們假設這n個神祕變量不是可以操控X的所有，還有一些其餘的神祕力量，咱們暫時不考慮，那麼就能夠用機率來彌補這個缺失，爲何呢？舉個例子，假設咱們製造了一個機器能夠向一個固定的目標發射子彈，咱們精確的計算好了打擊的力量和角度，但因爲某些難以控制的因素，好比空氣的流動，地球的轉動致使命中的目標沒法達到精準的目的，而這些因素可能十分巨大和繁多，可是他們並非造成DX的主因素，根據大數定理，這些全部因素產生的影響能夠用高斯分佈的機率密度函數來表示。它長這樣：
atom

當spa

無論怎樣，你只要記住咱們如今沒有能力關注所有的神祕變量，咱們只關心若干個可能重要的因素，這些因素的分佈情況能夠有各類假設，咱們回頭再討論他們的機率分佈問題，咱們如今假定咱們對他們的具體分佈狀況也是一無所知，咱們只是知道他們處於ZS空間內。
前面說到了一個神祕組合，若是一個數據集X對應的神祕組合徹底同樣，那麼這個數據集就是一個單一的分類數據集，若是是多個，那麼就是多分類數據集，但若是是一個連續的組合數據，那麼就是一個有點分不清界限的複雜數據集，就比如，咱們這個數據集是一條線段的集合，線段的長度是惟一的神祕變量，那麼只要長度在一個範圍內連續變化，那麼這個集合裏的線段你就會發現分散的很均勻，你幾乎沒有辦法區分開他們，也無法給他們分紅幾類，但若是這個長度值只能選擇1,3,5，那麼當你觀察這個數據集的時候，你會發現他們會聚在三堆兒裏。若是這個線段的生成徹底依靠的是計算機，那麼每一堆兒都是徹底重合的，但若是是人畫的，就可能由於偏差，無法徹底重合，這無法重合的部分就是咱們說的其餘複雜因素，咱們一般用一個高斯分佈來把它表明了。好，咱們已經基本清晰了，咱們該給這個神祕組合一個形式化的描述了。
假設有兩個變量，

設一個數據集爲DX，那麼這個數據集存在的機率爲

其中，

這樣咱們就直接定義個

好了，其實公式(1)就是咱們的神祕力量與觀察到的數據集之間的神祕關係，這個關係的意思咱們直白的說就是：當隱祕變量按照某種規律存在時，就很是容易產生如今咱們看到的這個數據集。那麼，咱們要作的工做就是當咱們假定有n個神祕力量時，咱們可以找到一個神奇的函數f，將神祕力量的變化轉化成神奇的x的變化，這個x可以垂手可得地生成數據集DX。
從上面的描述裏面咱們看到，f是生成轉換函數，公式(1)不表示這種轉換關係，而是這種關係的最大似然估計(maximum likelihood)，它的意思是找到最有可能生成DX這個數據集的主導函數f。

接下來咱們回到討論

注意z的分佈咱們依然是未知的。

假定咱們知道z如今取某一個或幾個特定值，那麼咱們就能夠經過Gradient Descent來找到一個

OK，咱們還要說一個關鍵問題，就是咱們確信f是存在的，咱們認爲變量與神祕變量之間的關係必定能夠用一個函數來表示。

2. 變分自編碼器(VAE)

本節，咱們探討如何最大化公式(1)。首先，咱們要討論怎樣肯定神祕變量z，即z應該有幾個維度，每一個維度的做用域是什麼？更爲較真的，咱們可能甚至要追究每一維度都表明什麼？他們之間是否是獨立的？每一個維度的機率分佈是什麼樣的？

若是咱們沿着這個思路進行下去，就會陷入泥潭，咱們能夠巧妙地避開這些問題，關鍵就在於讓他們繼續保持「神祕」！

咱們不關心每個維度表明什麼含義，咱們只假定存在這麼一羣相互獨立的變量，維度咱們也回到以前的討論，咱們雖然不知道有多少，咱們能夠假定有n個主要因素，n能夠定的大一點，好比假設有4個主因素，而咱們假定有10個，那麼最後訓練出來，可能有6個長期是0。最後的問題須要詳細討論一下，比較複雜，就是z的機率分佈和取值問題。

既然z是什麼都不知道，咱們是否是能夠尋找一組新的神祕變量w，讓這個w服從標準正態分佈

好，更加波瀾壯闊的歷程要開始了，請坐好。

咱們如今已經有了

咱們如今就能夠專心攻擊f了，因爲f是一個神經網絡，咱們就能夠梯度降低了。可是另外一個關鍵點在於咱們怎麼知道這個f生成的樣本，和DX更加像呢？若是這個問題解決不了，咱們根本都不知道咱們的目標函數是什麼。

3. 設定目標函數

咱們先來定義個函數 Q(z|DX)，數據集DX的發生，z的機率密度函數，即若是DX發生，Q(z|DX)就是z的機率密度函數，好比一個數字圖像0，z隱式表明0的機率就很大，而那些表明1的機率就很小。若是咱們有辦法搞到這個Q的函數表示，咱們就能夠直接使用DX算出z的最佳值了。爲何會引入Q呢？其實道理很簡單，若是DX是x這個變量直接生成的，要想找回x的模型，就要引入一個機率密度函數T(x|DX)，亦即針對DX，咱們要找到一個x的最佳機率密度函數。
如今的問題就變成了，咱們能夠根據DX計算出Q(z|DX)來讓他儘可能與理想的Pz(z|DX)儘可能的趨同，這就要引入更加高深的功夫了——相對熵，也叫KL散度(Kullback-Leibler divergence,用

離散機率分佈的KL公式

連續機率分佈的KL公式

經過貝葉斯公式

由於

公式(2)是VAE的核心公式，咱們接下來分析一個這個公式。
公式的左邊有咱們的優化目標P(DX)，同時攜帶了一個偏差項，這個偏差項反映了給定DX的狀況下的真實分佈Q與理想分佈P的相對熵，當Q徹底符合理想分佈時，這個偏差項就爲0，而等式右邊就是咱們可使用梯度降低進行優化的，這裏面的Q(z|DX)特別像一個DX->z的編碼器，P(DX|z)特別像z->DX的解碼器，這就是VAE架構也被稱爲自編碼器的緣由。

因爲DX早已再也不有分歧，咱們在這裏把全部的DX都換成了X。

咱們如今有公式(2)的拆分：
– 左側第一項：

還有下面這些：
–

咱們再明確一下每一個機率的含義：
–

咱們的目標是優化P(X)，可是咱們不知道他的分佈，因此根本無法優化，這就是咱們沒有任何先驗知識。因此有了公式(2)，左邊第二項是

右邊第一項：

如今咱們對這個公式的理解更加深刻了。接下來，咱們要進行實現的工做。

4. 實現

針對右邊兩項分別實現
第二項是Q(z|X)與N(0, I)的相對熵，X->z構成了編碼器部分。
Q(z|x)是正態分佈，兩個正態分佈的KL計算公式以下（太複雜了，我也推不出來，感興趣的看[1]）：

變成具體的神經網絡和矩陣運算，還須要進一步變化該式：

第一項是

到此，整個實現的細節就全都展示在下面這張圖裏了

因爲這個網絡傳遞結構的一個環節是隨機採樣，致使沒法反向傳播，因此聰明的前輩又將這個結構優化成了這樣：

這樣就能夠對整個網絡進行反向傳播訓練了。

具體的實現代碼，我實如今了這裏：

https://github.com/vaxin/TensorFlow-Examples/blob/master/examples/3_NeuralNetworks/variational_autoencoder.py

裏面的每一步，都有配合本文章的對照解釋。

5. 延伸思考

之因此關注VAE，是從文獻[4]引起的，因爲視覺早期的概念造成對於以後的視覺認知起了十分關鍵的做用，咱們有理由相信，在神經網絡訓練時，利用這種遞進關係，先構建具備基礎認知能力的神經網絡，再作高級認知任務時會有極大的效果提高。但經過前面神祕變量的分析，咱們發現，爲了充分利用高斯分佈，咱們將w替換成了z，也就是說真正的隱變量隱藏在f的神經網絡裏面，而如今的z反而容易變成說不清楚的東西，這一不利於後續的時候，二來咱們須要思考，是否應該還原真實的z，從而在層次化遞進上有更大的發揮空間。

[1] http://stats.stackexchange.com/questions/60680/kl-divergence-between-two-multivariate-gaussians[2] https://arxiv.org/abs/1606.05908[3] https://zhuanlan.zhihu.com/p/22464768[4] https://arxiv.org/abs/1606.05579

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。