有監督學習用於解決分類問題的前提是必須有一個帶標籤數據的樣本集,但得到數據標籤的代價每每是很是昂貴的。同時,這些標籤一般都是人工標註,標註錯誤的狀況也時有發生。這樣就促使了無監督學習策略的發展,簡單的說它就是:算法
對無標籤數據進行推理的機器學習方法。網絡
1. 場景機器學習
因爲無監督學習的前提是不須要前期的人類判斷,因此它通常是做爲某項學習任務的前置步驟,用於規約數據;在無監督學習以後,須要加入人類知識以使成果有實用價值。圖1-10從人類知識加入的時間點比較了兩種學習策略。學習
圖1-10 有監督學習與無監督學習優化
通常來講人類理解由無監督學習規約後的數據比整理樣本數據中的標籤更容易些,因此整體上無監督學習須要更少的人工參與。spa
無監督學習的算法比較豐富,按整理數據的方式有兩大分支:blog
此外還有一些小的算法族羣好比協方差分析(Covariance Estimation)、邊緣檢測(Outlier Detection)等。ip
圖1-11舉例說明做爲最重要無監督學習方式的聚類適用場景。它是一個銀行客戶的聚類示意圖,其將已有的客戶整體分紅兩個子集。在進行聚類訓練後,新客戶也可用已有的模型劃分到相應子集。ci
圖1-11 聚類場景舉例深度學習
聚類只是提供子集劃分方案,而劃分的邏輯意義須要人類進行辨別。在圖1-11中,從結果看算法將全部客戶按存款額和貸款額的多少分爲了兩類。對於大多數銀行來講,可能子集1對應的是普通用戶,子集2對應的是重要客戶。
2. 聚類算法
聚類算法仍然是當下一個不斷髮展領域,各類方法比較繁雜。本書主要學習目前比較成熟的幾種聚類策略,它們是:
3. 降維算法
如前所述,降維通常被用來壓縮特徵數量以便後續處理,其相對聚類來講略顯抽象。本書介紹兩類降維策略:
本書第四、5章分別詳細討論聚類和降維的主要算法原理與實踐。
從機器學習,到深度學習
從深度學習,到強化學習
從強化學習,到深度強化學習
從優化模型,到模型的遷移學習
一本書搞定!