線性降維-筆記(2)

4 - MDS

MDS全稱"Multidimensional Scaling",多維縮放。其主要思想就是給定一個原始空間的,原始樣本兩兩之間的距離矩陣;指望能在新空間中找到一個新的樣本特徵矩陣,使得其新樣本兩兩之間的距離矩陣與原始的距離矩陣相等。由於\(d' \leq d\),因此完成了降維的任務。機器學習

即假定有\(m\)個原始樣本的距離矩陣爲\(D\in R^{m \times m}\),其第\(i\)行第\(j\)列元素\(D_{ij}\)爲樣本\({\bf x}_i\)\({\bf x}_j\)之間的距離。以指望在\(d'\)維空間中找到樣本表示的矩陣\({\bf X}'\in R^{d'\times m}\),其中\(d' \leq d\),且任意兩個樣本在\(d'\)維空間中的歐式距離等於原始空間中的距離,即\(||{\bf x}_i-{\bf x}_j||=D_{ij}\).
ps:MDS大多都仍是使用的歐式距離來做爲樣本之間的測量方法,更多的方法看下面的表4.1.學習

\({\bf D'}={\bf X'}^T{\bf X'}\in R^{m \times m}\),其中\({\bf D'}\)爲降維後樣本的內積矩陣,\({D'}_{ij}={\bf x'}_i^T{\bf x'}_j\),則有:
\[\begin{eqnarray}D_{ij}^2 &=&||{\bf x'}_i-{\bf x'}_j||^2\\ &=&||{\bf x'}_i||^2+||{\bf x'}_j||^2-2{\bf x'}_i^T{\bf x'}_j\\ &=&{D'}_{ii}+{D'}_{jj}-2{D'}_{ij} \end{eqnarray}\tag{4.1}\]
假設求得的降維後樣本已經中心化了,即\(\sum_i^m{\bf x'}=m\mu_{\bf x'}=0\),則能夠看出矩陣\({\bf D'}\)的行之和等於列之和都爲零,即
\[\sum_i^m{D'}_{ij}=\sum_j^m{D'}_{ij}=0\tag{4.2}\]
則4.2,4.1可得:
\[\begin{eqnarray}\sum_i^m{D}_{ij}^2 &=&\sum_i^m\left({D'}_{ii}+{D'}_{jj}-2{D'}_{ij}\right)\\ &=&\sum_i^m{D'}_{ii}+m{D'}_{jj}-2\sum_i^m{D'}_{ij}\\ &=&tr({\bf D'})+m{D'}_{jj} \end{eqnarray}\tag{4.3}\]
同理:
\[\sum_j^m{D}_{ij}^2=tr({\bf D'})+m{D'}_{ii}\tag{4.4}\]
則:
\[\begin{eqnarray}\sum_i^m\sum_j^m{D}_{ij}^2 &=&\sum_i^m\left(tr({\bf D'})+m{D'}_{ii}\right)\\ &=&mtr({\bf D'})+\sum_i^mm{D'}_{ii}\\ &=&2mtr({\bf D'}) \end{eqnarray}\tag{4.5}\]
令:
\({\overline D}_{i.}^2=\frac{1}{m}\sum_j^m{D}_{ij}^2\tag{4.6}\)
\({\overline D}_{.j}^2=\frac{1}{m}\sum_i^m{D}_{ij}^2\tag{4.7}\)
\({\overline D}_{..}^2=\frac{1}{m^2}\sum_i^m\sum_j^m{D}_{ij}^2\tag{4.8}\)
由4.1-4.8得:
\[\begin{eqnarray}{D'}_{ij} &=&-\frac{1}{2}\left({D}_{ij}^2-{D'}_{ii}-{D'}_{jj}\right)\\ &=&-\frac{1}{2}\left[{D}_{ij}^2-\frac{1}{m}\left(\sum_j^m{D}_{ij}^2-\frac{1}{2m}\sum_i^m\sum_j^m{D}_{ij}^2\right)-\frac{1}{m}\left(\sum_i^m{D}_{ij}^2-\frac{1}{2m}\sum_i^m\sum_j^m{D}_{ij}^2\right)\right]\\ &=&-\frac{1}{2}\left(D_{ij}^2-{\overline D}_{i.}^2-{\overline D}_{.j}^2+{\overline D}_{..}^2\right) \end{eqnarray}\]
從而能夠計算獲得降維後的樣本距離矩陣\(\bf D'\)
對矩陣\(\bf D'\)作特徵值分解,\({\bf D'}=\bf V\Lambda V^T\),其中\({\bf \Lambda}=diag(\lambda_1,\lambda_2,...\lambda_d)\)爲特徵值構成的對角矩陣,且按照從大到小排序,\(\bf V\)爲特徵向量矩陣,假設其中有\(d^*\)個非零特徵值,則構成對角矩陣\({\bf \Lambda}_*=diag(\lambda_1,\lambda_2,...\lambda_{d^*})\),令\(\bf V_*\)表示對應的特徵向量矩陣,則\({\bf X'}\)可得:
\[{\bf X'}={\bf \Lambda_*^{1/2}}{\bf V}_*^T\in R^{{d^*}\times m}\]spa

表4.1 定量數據之間的相關性測量
距離測量 式 子
歐式距離 \(D_{rs}=\{\sum_i^d(x_{ri}-x_{si})^2\}^{1/2}\)
權重歐式距離 \(D_{rs}=\{\sum_i^dw_i(x_{ri}-x_{si})^2\}^{1/2}\)
馬氏距離 \(D_{rs}=\{({\bf x}_{r}-{\bf x}_{s})^T\Sigma^{-1}({\bf x}_{r}-{\bf x}_{s})\}^{1/2}\)
City block測量 \(D_{rs}=\sum_i^d|x_{ri}-x_{si}|\)
Minkowski測量 \(D_{rs}=\{\sum_i^dw_i|x_{ri}-x_{si}|^\lambda\}^{1/\lambda}\quad \lambda \geq 1\)
Canberra測量 \(D_{rs}=\sum_i^d\frac{|x_{ri}-x_{si}|}{x_{ri}+x{si}}\)
Divergence \(D_{rs}=\frac{1}{d}\sum_i^d\frac{(x_{ri}-x_{si})^2}{(x_{ri}+x_{si})^2}\)
Bray-Curtis \(D_{rs}=\frac{1}{d}\frac{\sum_i^d|x_{ri}-x_{si}|}{\sum_i^d(x_{ri}+x_{si})}\)
Soergel \(D_{rs}=\frac{1}{d}\frac{\sum_i^d|x_{ri}-x_{si}|}{\sum_i^d\max(x_{ri},x_{si})}\)
Bhattacharyya距離 \(D_{rs}=\sqrt{\sum_i^d\left(\sqrt{(x_{ri})}-\sqrt{(x_{si})}\right)^2}\)
Wave-Hedges \(D_{rs}=\sum_i^d\left(1-\frac{\min(x_{ri},x_{si})}{\max(x_{ri},x_{si})}\right)\)
Angular separation \(D_{rs}=1-\frac{\sum_i^dx_{ri}x_{si}}{\left[\sum_i^dx_{ri}^2\sum_i^dx_{si}^2\right]^{1/2}}\)
Correlation \(D_{rs}=1-\frac{\sum_i^d(x_{ri}-\overline x_r)(x_{si}-\overline x_s)}{\left[\sum_i^d(x_{ri}-\overline x_r)^2\sum_i^d(x_{si}-\overline x_s)^2\right]^{1/2}}\)

5 - ICA

6 - LFA

7 - LPP

參考文獻:
[] 周志華 機器學習
[] Michael A.A. Cox, Trevor F. Cox. Multidimensional Scaling排序

相關文章
相關標籤/搜索