《從機器學習到深度學習》筆記(2)無監督學習

   有監督學習用於解決分類問題的前提是必須有一個帶標籤數據的樣本集,但得到數據標籤的代價每每是很是昂貴的。同時,這些標籤一般都是人工標註,標註錯誤的狀況也時有發生。這樣就促使了無監督學習策略的發展,簡單的說它就是:算法

 對無標籤數據進行推理的機器學習方法。網絡

1. 場景機器學習

因爲無監督學習的前提是不須要前期的人類判斷,因此它通常是做爲某項學習任務的前置步驟,用於規約數據;在無監督學習以後,須要加入人類知識以使成果有實用價值。圖1-10從人類知識加入的時間點比較了兩種學習策略。學習

 

圖1-10 有監督學習與無監督學習優化

  通常來講人類理解由無監督學習規約後的數據比整理樣本數據中的標籤更容易些,因此整體上無監督學習須要更少的人工參與。spa

  無監督學習的算法比較豐富,按整理數據的方式有兩大分支:blog

  •  聚類(Clustering):是最主要的無監督學習方式,是指將已有的樣本數據分紅若干個子集。生成的模型也可用於爲新樣本劃分類別。
  •  降維(Dimensionality Reduction):即以保持數據之間現有距離關係不變爲目標,將高維數據轉換爲低維數據,。

此外還有一些小的算法族羣好比協方差分析(Covariance Estimation)、邊緣檢測(Outlier Detection)等。ip

圖1-11舉例說明做爲最重要無監督學習方式的聚類適用場景。它是一個銀行客戶的聚類示意圖,其將已有的客戶整體分紅兩個子集。在進行聚類訓練後,新客戶也可用已有的模型劃分到相應子集。ci

 

圖1-11 聚類場景舉例深度學習

  聚類只是提供子集劃分方案,而劃分的邏輯意義須要人類進行辨別。在圖1-11中,從結果看算法將全部客戶按存款額和貸款額的多少分爲了兩類。對於大多數銀行來講,可能子集1對應的是普通用戶,子集2對應的是重要客戶。

2. 聚類算法

聚類算法仍然是當下一個不斷髮展領域,各類方法比較繁雜。本書主要學習目前比較成熟的幾種聚類策略,它們是:

  • 距離切分方法(Partition Methods):是一種最基礎的算法,根據特徵之間的距離進行聚類劃分。具體算法主要是指K-means和及其派生算法。
  •  密度方法(Density Methods):其經過定義每一個子集的最小成員數量和成員之間距離實現劃分。最典型的算法是DBSCAN,即Density-Based Spatial Clustering of Applications with Noise。
  •  模型方法(Model Methods):用機率模型(以高斯混合模型爲典型,即Gaussian Mixture Model)和神經網絡模型(SOM,Self Organizing Maps)爲主要表明。其特色是不徹底將樣本認定爲屬於某子集,而是指出樣本屬於各子集的可能性的大小。
  •  層次方法(Hierarchical Methods):不像其餘聚類將整體劃分紅彼此地位平等的多個子集,層次方法最終將數據集劃分紅有父子關係的樹形結構。這樣就能夠在聚類的同時考察各子類之間的親緣關係,比較典型的是birch模型。

3. 降維算法

如前所述,降維通常被用來壓縮特徵數量以便後續處理,其相對聚類來講略顯抽象。本書介紹兩類降維策略:

  •  線性降維:顧名思義用來處理線性問題。模型比較簡單,包括常見的主成分分析(PCA,Principle Component Analysis)和線性判別分析(LDA,Linear Discriminant Analysis)
  •  流行學習(Manifold Learning):是近期學術界的熱點,能夠處理非線形降維。目前比較成熟的算法包括Isomap、局部線性嵌入(LLE,Locally Linear Embedding)等。

本書第四、5章分別詳細討論聚類和降維的主要算法原理與實踐。

 

從機器學習,到深度學習

從深度學習,到強化學習

從強化學習,到深度強化學習

從優化模型,到模型的遷移學習

一本書搞定!

相關文章
相關標籤/搜索