機器學習公開課備忘錄(五)無監督學習

 機器學習公開課備忘錄(五)無監督學習

對應公開課八九周內容,備忘錄整理的是偏向算法類的思想內容,所以第10周的照片OCR系統沒有作總結,第九周的推薦系統也未作總結算法

 1、K-means聚類算法

 算法步驟

1. 設定n個聚類中心
2. 簇分配(Cluster Assignment):每一個數據點\(x^{(i)}\)劃分到離它最近的聚類中心的那一類中,即\(c^{(i)}=\min\limits_k||x^{(i)}-\mu_k||^2\)
3. 聚類中心更新:將每一個聚類的中心\(U_k\)位置更新爲該類中全部數據點的平均值
4. 重複步驟2~3,直到聚類中心再也不變化app

 算法理解與使用

1. K-means的代價函數爲:\[J(c^{(1)},\ldots,c^{(m)},\mu_1,\ldots,\mu_K)=\frac{1}{m}\sum\limits_{i=1}^{m}||x^{(i)}-\mu_{c^{(i)}}||^2\]
簇分配本質上是在不斷最小化\(J\)的過程
2. 使用算法時,能夠直接挑選K個樣本爲初始聚類中心進行更新,爲了防止偶然性,能夠屢次初始化(該方法對K=2~10有較好效果)
3. K的選擇能夠依賴肘部法則(即繪製J隨K變化的曲線,選擇降低速度忽然減少的點)或者現實考慮(如某種衣服要劃分K個型號):
機器學習

 2、PCA降維(主成份分析)

 PCA的思路

當二維數據點近似分佈在一條直線上時,能夠將其用一個變量代替,同理,多維能夠降到更低維。該思路能夠用於數據降維減小計算量或數據可視化。
PCA降維的依據就是偏差最小化,偏差是指數據點到到降維後超平面的投射距離,以二維數據爲例:
函數

藍色點爲原數據點,紅色點爲近似後的數據點,黑色細線即爲PCA過程當中產生的偏差。
(注意到這裏的偏差是投影點直接的距離,和線性迴歸的偏差是不一樣的)
學習

 PCA算法步驟

1. feature scaling:\(x_j^{(i)}=\frac{x^{(i)}-\mu_j}{\sigma_j}\)
2. 計算協方差矩陣:\[\Sigma=\frac{1}{m}\sum\limits_{i=1}^{m}x^{(i)}(x^{(i)})^T \quad \]
3. 計算協方差矩陣\(\sum\)的特徵向量:spa

[U,S,V] = svd(Sigma)3d

4. 選舉U矩陣的前k個列向量組成\(U_{reduce}\)
5. 計算降維後的數據:\(z = U_{reduce}^Tx\)(也能夠利用該矩陣還原數據)blog

 PCA算法的使用

1. k值的選擇,能夠依據根據投射偏差與原數據的範數平方的平均值之比獲得,例如:\[\frac{\frac{1}{m}\sum\limits_{i=1}^{m}||x^{(i)}-x^{(i)}_{approx}||^2}{\frac{1}{m}\sum\limits_{i=1}^{m}||x^{(i)}||^2} \leq 0.01(0.05)\]
就說明偏差佔比例小於1%,也就是說保留了99%的差別性
2. 所以,選擇k能夠從k=1開始循環,直到尋找的k知足差別性條件
3. PCA減小了特徵,但沒有減小特徵的信息量,沒法用於過擬合
4. 在使用PCA加快系統求解速度前,要用原始數據驗證模型準確性it

 3、異常檢測

異常檢測針對的是有少許\((0-20)\)正例\((y=1)\)的狀況,此時因爲正例太少,若使用監督學習則沒法學習到足夠的內容。
異常檢測的核心思路就是利用訓練數據建模\(p(x)\),若新的數據點知足\(p(x_{new} < \epsilon)\),即發生機率太小,則認爲該點異常class

 異常檢測算法

假設\(x的分佈符合高斯分佈,則\):
\[p(x;\mu, \sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})\]
其中:\[\mu = \frac{1}{m}\sum\limits_{i=1}^{m}x^{(i)},\sigma^2=\frac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}-\mu)^2\]
統計學中,有時候也選用\(\frac{1}{m-1}\)的係數
對於多特徵的訓練集,能夠假設每一個特徵都符合高斯分佈,且獨立同分布,最後的機率就爲:
\[\begin{align*}p(x)&=p(x_1; \mu_1, \sigma_1^2)p(x_2; \mu_2, \sigma_2^2)\ldots p(x_n; \mu_n, \sigma_n^2) \\ &= \prod\limits_{j=1}^n p(x_j; \mu_j, \sigma_j^2)\end{align*}\]
其中:\[\mu_j = \frac{1}{m}\sum\limits_{i=1}^{m}x^{(i)}_j,\sigma^2_j=\frac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}_j-\mu_j)^2\]
最後,閾值的選取能夠根據交叉驗證集的表現來肯定。即經過不一樣的閾值,來計算對應的驗證集的查準率、召回率或\(F1\)值等

 多元高斯分佈

多元高斯分佈解決的是各個特徵之間不獨立的狀況,此時有公式:
\[p(x;\mu, \Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)\]
其中:\[\mu=\frac{1}{m}\sum\limits_{i=1}^{m}x^{(i)},\Sigma=\frac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}-\mu)(x^{(i)}-\mu)^T\]
當協方差矩陣是對角陣且對角線元素爲一元高斯分佈的參數\(\sigma_j^2\)時,兩個模型相同;多元模型能捕捉變量之間的關係,可是它要求\(m > n\),且爲了保證協方差矩陣可逆,不能有冗餘特徵。

相關文章
相關標籤/搜索