聚類分析是一種非監督的學習,分類是一種監督學習,就是用已經知道的類別的訓練數據獲得一個分類的模型,因此聚類與分類的主要區別在因而否須要預先定義好類別,也就是說聚類分析只是依靠數據自己來肯定數據之間的關係的,因此聚類分析有很大的優越性特別是適合處理大量的原始的數據算法
聚類分析方法的性能指標:1.可擴展性,2,自適應性,3,魯棒性4,可解釋性網絡
聚類使用的數據類是:數據矩陣 相異度矩陣 性能
規範化是在中心化的基礎上再作變換,確保變量的變化範圍相等,經常使用的規範化方法有最大值歸一化,總和規範化,均值標準差規範化 以及極差規範化學習
聚類分析方法包括 基於劃分的方法 基於分層的方法 基於密度的方法 基於網格的方法 基於模型的方法對象
連續變量的距離須要知足自反性 對稱性 正定性 以及三角不等式等條件,矩陣D是一個對稱矩陣,且對角線上的元素是0.基礎
類似係數 應該知足自反性 對稱性 歸一化 知足三角不等式 變量
基於分割的聚類方法:k-均值算法 k-中心值算法擴展
基於層次的聚了方法採用的是距離做爲衡量聚類的標準 距離的度量的方法有:最小距離 最大距離 均值 等神經網絡
分爲自底向上和自頂向下的方法:其中自底向上是將每一個對象做爲一個簇,經過不斷的合併這些基本的簇造成較大的簇,知道知足條件爲止 自適應
自頂向下是首先將全部的對象看陳是一個簇中的對象,而後根據必定的準則不斷的進行分割這個簇造成更小的簇,從而完成聚類
基於密度的聚類 主要餓算法有DBSCAN OPTICS DENCLUE CLIQUE
基於網格的聚類 主要得算法有STING WaveCluster CLIQUE
基於模型的聚類 主要有神經網絡方法和統計學方法