吳恩達機器學習系列21:降維

降維(Dimensionality Reduction能夠保持數據在原有特徵的基礎上對數據進行壓縮,從 3D 降到 2D,使得數據的分佈狀況不發生改變,以下圖:未命名圖片.png算法

降維還有一個做用,就是能更好地可視化數據。好比說,如今有一個數據集,有 50 個特徵,若是想經過圖像來分析這個數據集,目前是作不到的,由於只能畫出三維圖像,也就是說特徵數爲 3。可是若是運用降維,把特徵數從 50 降到 3,你就能夠畫出這個數據集,更好地觀察它們之間的聯繫(畢竟觀察圖像纔有最直觀的感覺)。 微信


目前,最經常使用的降維算法就是主成分分析算法(Principal Component Analysis)也稱爲 PCA。它的工做原理是將高維數據投影到低維平面,以便最小化投影偏差的平方。例如:如今有一個二維數據,咱們使用 PCA,將它投影到一維中,以下圖:機器學習

未命名圖片.png

將全部的黑色叉投影到紅色線上,所在的投影就是綠色叉。這麼一看是否是跟咱們以前學過的線性迴歸有點類似呢?其實他們兩個相差很大,咱們先來看線性迴歸:
編輯器

未命名圖片.png

經過這張圖能夠看出,線性迴歸是儘可能減少數據集的 y 與假設函數值之間的偏差,也就是減少圖中藍色的線段的距離。再來看 PCA:函數

未命名圖片.png

這是儘可能減小點到直線的距離,也是圖中藍色線段的長度。經過這兩個圖作對比,你就能更好地理解這兩種算法的區別了。學習



應用 PCA 的建議

應用 PCA 能夠減小對內存的使用、加速學習算法的速度、可視化高維數據。可是不要用 PCA 防止過擬合,由於應用 PCA 時,可能會拋棄某些重要的特徵。還有一點,不要一上來無論三七二十一就使用 PCA,在使用 PCA 以前,先考慮一下使用 PCA 到底是爲了作什麼,若是不用 PCA 是否可以完成任務。spa




ps. 本篇文章是根據吳恩達機器學習課程整理的學習筆記。若是想要一塊兒學習機器學習,能夠關注微信公衆號「SuperFeng」,期待與你的相遇。3d

請關注公衆號.PNG

相關文章
相關標籤/搜索