數據處理中白化Whitening的做用圖解分析

來源:whiteinblue的專欄html

以前在看斯坦福教程中whiteining這一章時,因爲原始圖像相鄰像素值具備高度相關性,因此圖像數據信息冗餘,須要作白化處理。算法

白化的做用的描述主要有兩個方面:1,減小特徵之間的相關性;2,特徵具備相同的方差(協方差陣爲1)url

白化,又稱漂白或者球化;是對原始數據x實現一種變換,變換成x_Whitened,使x_Whitened的協方差矩陣的爲單位陣。.net

通常狀況下,所得到的數據都具備相關性,因此一般都要求對數據進行初步的白化或球化處理,由於白化處理可去除各觀測信號之間的相關性,從而簡化了後續獨立份量的提取過程,並且,一般狀況下,數據進行白化處理與不對數據進行白化處理相比,算法的收斂性較好。3d

白化這種常規的方法做爲ICA的預處理能夠有效地下降問題的複雜度,並且算法簡單,用傳統的PCA就可完成。用PCA對觀測信號進行白化的預處理使得原來所求的解混合矩陣退化成一個正交陣,減小了ICA的工做量。此外,PCA自己具備降維功能,當觀測信號的個數大於源信號個數時,通過白化能夠自動將觀測信號數目降到與源信號維數相同。htm


  • 圖解分析

假設信號源 s1 和 s2 是獨立的,好比下圖橫軸是 s1,縱軸是 s2,根據 s1 得不到 s2。blog

咱們只知道他們合成後的信號x,以下:教程

此時 x1 和 x2 不是獨立的(好比看最上面的尖角,知道了 x1 就知道了 x2)。那麼直接代入計算結果很差,由於咱們假定 x 是獨立的。get

所以,漂白這一步爲了讓 x 獨立。漂白結果以下:it

能夠看到數據變成了方陣,在的維度上已經達到了獨立。

然而這時 x 分佈很好的狀況下可以這樣轉換,當有噪音時怎麼辦呢?能夠先使用前面提到的PCA方法來對數據進行降維,濾去噪聲信號,獲得k維的正交向量,而後再使用ICA。


參考文獻:

http://wenku.baidu.com/link?url=M9B-jE_GnXBcZBV2wpHAp8_Mj7je1IH8yetkvfRBZULqwFuTGToO__e5eE2uFcQnPxTYHRlzrizKfCE3YYw1_aw6bb3d7NZTy6UMrwUYbny

http://wenku.baidu.com/view/941f6782e53a580216fcfe03.html

相關文章
相關標籤/搜索