聚類分析和判別分析有類似的做用,都是起到分類的做用。函數
判別分析是已知分類而後總結出判別規則,是一種有指導的學習;學習
聚類分析則是有了一批樣本,不知道它們的分類,甚至連分紅幾類也不知道,但願用某種方法把觀測進行合理的分類,使得同一類的觀測比較接近,不一樣類的觀測相差較多,這是無指導的學習。
因此,聚類分析依賴於對觀測間的接近程度(距離)或類似程度的理解,定義不一樣的距離量度和類似性量度就能夠產生不一樣的聚類結果spa
基本原理:從已知的各類分類狀況中總結規律(訓練出判別函數),當新樣品進入時,判斷其與判別函數之間的類似程度(機率最大,距離最近,離差最小等判別準則)。.net
經常使用判別方法:最大似然法,Bayes判別法,距離判別法,Fisher判別法,逐步判別法等。對象
注意事項:1. 判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測的;blog
2. 每一個解釋變量不能是其它解釋變量的線性組合(好比出現多重共線性狀況時,判別權重會出現問題);變量
3. 各解釋變量之間服從多元正態分佈(不符合時,可以使用Logistic迴歸替代),且各組解釋變量的協方差矩陣相等(各組協方方差矩陣有顯著差別時,判別函數不相同)。原理
相對而言,即便判別函數違反上述適用條件,也很穩健,對結果影響不大。方法
應用領域:對客戶進行信用預測,尋找潛在客戶(是否爲消費者,公司是否成功,學生是否被錄用等等),臨牀上用於鑑別診斷。統計
本文中分三個方法介紹判別分析,Bayes判別,距離判別,Fisher判別。
Bayes 和 距離判別:都要考慮兩個、或多個整體協方差(方差是協方差的一種)相等或不等的狀況,由 var.equal= 的邏輯參數表示,默認是 FALSE,表示認爲兩整體協方差不等。
用樣本的協方差能夠估計整體的協方差。
在Bayes方法中咱們把相等和不等的兩個結果都列了出來,距離判別裏咱們默認兩整體協方差不等。
通常使用時,咱們都以兩整體的協方差不等做爲標準來進行後續計算。
Bayes判斷 假定咱們對研究對象有必定的認識,這種認識經常使用先驗機率來描述。。。
取得樣本後,用樣原本修正已有的先驗機率分佈,得出後延機率分佈。。
再經過後驗分佈進行各類統計推斷。。
參考文獻:
https://blog.csdn.net/zhubo22/article/details/8194772 總述 聚類與判別之間的關係
https://blog.csdn.net/tiaaaaa/article/details/58145126 判別分析的實例與原理。
https://blog.csdn.net/chen790646223/article/details/45450301 各類判別和分類方法。