聚類分析和判別分析有類似的做用,都是起到分類的做用。學習
判別分析是已知分類而後總結出判別規則,是一種有指導的學習;spa
聚類分析則是有了一批樣本,不知道它們的分類,甚至連分紅幾類也不知道,但願用某種方法把觀測進行合理的分類,使得同一類的觀測比較接近,不一樣類的觀測相差較多,這是無指導的學習。
因此,聚類分析依賴於對觀測間的接近程度(距離)或類似程度的理解,定義不一樣的距離量度和類似性量度就能夠產生不一樣的聚類結果.net
基本原理:將數據所研究對象進行分類的統計方法。設計
將個體(樣品)或者對象(變量)按類似程度(距離遠近)劃分類別,使得同一類中的元素之間的類似性比其餘類的元素的類似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。對象
共同特色是:事先不知道類別的個數和結構,據以進行分析的數據是對象之間的類似性或相異性的數據。
將這些類似(相異)性數據當作是對象之間的「距離」遠近的一種度量,將距離近的變量歸爲一類,不一樣類之間的對象距離較遠。這就是聚類分析方法的共同思路。blog
經常使用聚類方法:系統聚類法(層次聚類:每次加入一個),K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。[劃分聚類:先肯定分類的種類]變量
注意事項:1. 系統聚類法可對變量或者記錄進行分類,K-均值法只能對記錄進行分類;原理
2. K-均值法要求分析人員事先知道樣品分爲多少類;方法
3. 對變量的多元正態性,方差齊性等要求較高。統計
應用領域:細分市場,消費行爲劃分,設計抽樣方案等
參考文獻:
https://blog.csdn.net/zhubo22/article/details/8194772 總述 聚類與判別之間的關係