Unsupervised deep embedding for clustering analysis算法
偶然發現這篇發在ICML2016的論文,它主要的關注點在於unsupervised deep embedding。據我所瞭解的,Unsupervised 學習是deep learning的一個難點,畢竟deep network這種很是複雜的非線性映射,暫時的未知因素太多,可能在原來的domain有clustering的特徵數據通過nonlinear映射以後,就變得再也不clustering了。網絡
這篇論文受t-SNE的啓發,優化的目標是兩個分佈之間的KL距離。假設deep embedding以後的兩個點 和
,其中
是第
個類的centroid。因而,similarity 的measure爲dom
也能夠認爲是 屬於
的機率。ide
假設此時一個目標分佈,則
。優化的過程和普通的BP算法同樣,(1)經過BP算法優化deep network的參數,即計算
。(2)經過計算梯度
來調整cluster的centroid,可是否這類centroid的調整也須要乘上一個學習率呢?函數
此外,一個重點的問題是潛在目標分佈的構造。Paper裏給出了三個標準,我以爲這三個標準確實挺有意義的:(1)對預測效果能夠strengthen(2)對於一些高几率被標註某個cluster的點,給予更多的權重(3)歸一化每一個點對於每一個centroid用於計算loss函數時候的貢獻,避免一些大的cluster扭曲了整個feature space。構造以下,學習
其中,。對以上三個標準說一說本身的理解,不必定準確。(1)對於第一點,對於某個明顯更靠近
類的point,它比其餘point離得除
類之外更遠,這個點的
也更高,並且
也可能會更高(2)平方項的應用使得小的更加小了,即emphasis更小。同時,當
較高,在
的全部點中,
也會有相對高的值。(3)對於某些大的cluster,可能總和
更大,反而最終
更小,而對於小的cluster,使得
更大。最終把一個點push到另外一個小cluster。優化
直覺上說,機率分佈的初始化的正確性很大程度影響的算法最終的結果,首先由於這不是一個真實的分佈,而deep network沒有一個很好的初始化很難在另外一個domain 保持cluster的結構。而section 5.1 的結果顯示,對於high confidence的點,sample也變得更加canonical,如圖越高confidence越明顯是「5」的字樣,而對於梯度的貢獻也愈來愈大,即說明初始化機率分佈
也是接近正確的。spa
網絡的初始化和SAE(棧autoencoder)同樣,採用greedy training的方式訓練每一層,而後再微調整個網絡。而初始化cluster的選擇,則經過在embedding上perform k means clustering 算法獲得。3d