AutoEncoder做爲NN裏的一類模型,採用無監督學習的方式對高維數據進行高效的特徵提取和特徵表示,而且在學術界和工業界都大放異彩。本文主要介紹AutoEncoder系列模型框架的演進,旨在梳理AutoEncoder的基本原理。首先上圖,而後再對他們進行逐一介紹。網絡
AutoEncoder的思想最先被提出來要追溯到1988年[1],當時的模型因爲數據過於稀疏高維計算複雜度高很難優化,沒能獲得普遍的引用。直到2006年,Hinton等人[2]採用梯度降低來逐層優化RBM從而實現對原始樣本/特徵的抽象表示,並在特徵降維上取得顯著效果。這才使得采用神經網絡來構建AutoEncoder的方法獲得普遍關注。app
AutoEncoder
在介紹經典的基於神經網絡的AutoEncoder模型以前,先來總體看一下AutoEncoder框架的基本思想,以下圖所示。AutoEncoder框架包含兩大模塊:編碼過程和解碼過程。經過encoder(g)將輸入樣本x映射到特徵空間z,即編碼過程;而後再經過decoder(f)將抽象特徵z映射回原始空間獲得重構樣本x',即解碼過程。優化目標則是經過最小化重構偏差來同時優化encoder和decoder,從而學習獲得針對樣本輸入x的抽象特徵表示z。框架
這裏咱們能夠看到,AutoEncoder在優化過程當中無需使用樣本的label,本質上是把樣本的輸入同時做爲神經網絡的輸入和輸出,經過最小化重構偏差但願學習到樣本的抽象特徵表示z。這種無監督的優化方式大大提高了模型的通用性。ide
對於基於神經網絡的AutoEncoder模型來講,則是encoder部分經過逐層下降神經元個數來對數據進行壓縮;decoder部分基於數據的抽象表示逐層提高神經元數量,最終實現對輸入樣本的重構。函數
這裏指的注意的是,因爲AutoEncoder經過神經網絡來學習每一個樣本的惟一抽象表示,這會帶來一個問題:當神經網絡的參數複雜到必定程度時AutoEncoder很容易存在過擬合的風險。學習
Denoising AutoEncoder
爲了緩解經典AutoEncoder容易過擬合的問題,一個辦法是在輸入中加入隨機噪聲;Vincent等人[3]提出了Denoising AutoEncoder,在傳統AutoEncoder輸入層加入隨機噪聲來加強模型的魯棒性。另外一個辦法就是結合正則化思想,Rifai等人[4]提出了Contractive AutoEncoder,經過在AutoEncoder目標函數中加上encoder的Jacobian矩陣範式來約束使得encoder可以學到具備抗干擾的抽象特徵。優化
下圖是Denoising AutoEncoder的模型框架。目前添加噪聲的方式大多分爲兩種:添加服從特定分佈的隨機噪聲;隨機將輸入x中特定比例置爲0。有沒有以爲第二種方法跟如今普遍石紅的Dropout很類似,可是Dropout方法是Hinton等人在2012年才提出來的,而第二種加噪聲的方法在08年就已經被應用了。這其中的關係,就留給你思考一下。編碼
Denoising AutoEncoder模型框架Sparse AutoEncoder
爲了在學習輸入樣本表示的時候能夠獲得稀疏的高維抽象特徵表示,Ng等人[5]在原來的損失函數中加入了一個控制稀疏化的正則項。稀疏約束能迫使encoder的各層只有部分神經元被激活,從而將樣本映射成低維稀疏特徵向量。url
具體來講,若是單個神經元被激活的機率很小,則可認爲該網絡具備稀疏性。神經元是否被激活能夠看作服從機率的伯努利分佈。所以可使用KL散度來衡量神經元被激活的機率ρ^與指望機率ρ之間的loss:spa
經過將D_KL加入到AutoEncoder的目標函數中,便可實現對神經網絡稀疏性的約束。另外,還有一種方法就是對神經網絡各層的輸出加入L1約束。
CNN/LSTM AutoEncoder
其實不管是Convolutional Autoencoder[6]、 Recursive Autoencoder仍是LSTM Autoencoder[7]等等,思路都是將傳統NN網絡的結構融入到AutoEncoder中。
以LSTM AutoEncoder爲例,目標是針對輸入的樣本序列學習獲得抽象特徵z。所以encoder部分是輸入一個樣本序列輸出抽象特徵z,採用以下的Many-to-one LSTM;而decoder部分則是根據抽象特徵z,重構出序列,採用以下的One-to-many LSTM。
將傳統NN網絡的結構引入AutoEncoder其實更可能是一個大概的思想,具體實現的時候,編碼器和解碼器都是不固定的,可選的有CNN/RNN/雙向RNN/LSTM/GRU等等,並且能夠根據須要自由組合。
Variational AutoEncoder
Vairational AutoEncoder(VAE)是Kingma等人與2014年提出。VAE比較大的不一樣點在於:VAE再也不將輸入x映射到一個固定的抽象特徵z上,而是假設樣本x的抽象特徵z服從(μ,σ^2)的正態分佈,而後再經過分佈生成抽象特徵z。最後基於z經過decoder獲得輸出。模型框架以下圖所示:
因爲抽象特徵z是從正態分佈採樣生成而來,所以VAE的encoder部分是一個生成模型,而後再結合decoder來實現重構保證信息沒有丟失。VAE是一個里程碑式的研究成果,倒不是由於他是一個效果多麼好的生成模型,主要是提供了一個結合機率圖的思路來加強模型的魯棒性。後續有不少基於VAE的擴展,包括infoVAE、betaVAE和factorVAE等。
Adversarial AutoEncoder
既然說到生成模型引入AutoEncoder,那一定也少不了將GAN的思路引入AutoEncoder[9],也取得了不錯的效果。
對抗自編碼器的網絡結構主要分紅兩大部分:自編碼部分(上半部分)、GAN判別網絡(下半部分)。整個框架也就是GAN和AutoEncoder框架兩者的結合。訓練過程分紅兩個階段:首先是樣本重構階段,經過梯度降低更新自編碼器encoder部分、以及decoder的參數、使得重構損失函數最小化;而後是正則化約束階段,交替更新判別網絡參數和生成網絡(encoder部分)參數以此提升encoder部分混淆判別網絡的能力。
一旦訓練完畢,自編碼器的encoder部分便學習到了從樣本數據x到抽象特徵z的映射關係。
參考文獻
[1] Auto-association by multilayer perceptrons and singular value decomposition, Bourlard etc, 1988
[2] Reducing the dimensionality of data with neural networks, Geoffrey Hinton etc, 2006
[3] Extracting and composing robust features with denoising autoencoders, Pascal Vincent etc, 2008
[4] Contractive auto-encoders: Explicit invariance during feature extraction, Rifai S etc, 2011
[5] Sparse autoencoder, Andrew Ng, etc, 2011
[6] Stacked Convolutional Auto-Encoders for Hierarchical Feature, Jonathan Masci, Jurgen Schmidhuber etc, 2011
[7] Unsupervised Learning of Video Representations using LSTMs, Nitish Srivastava etc, 2015
[8] Auto-encoding variational bayes, Diederik Kingma etc, ICLR 2014
[9] Adversarial Autoencoders, Alireza Makhzani, Ian Goodfellow etc, 2015