機器學習常見的聚類模式

層次聚類(Hierarchical methods)

主要思想:算法

    試圖在不一樣層次上對數據集進行劃分,從而造成樹形的聚類結構。數據集的劃分能夠採用「自底向上」的聚合策略,開始將每一個對象做爲單獨的一個組,而後逐次合併相近的對象或組,直到全部的組合併爲一個組,或者知足某個終止條件;也可採用「自頂向下」的分拆策略,開始將全部的對象置於一個簇中。在每次相繼迭代中,每一個簇被劃分紅更小的簇,直到最終每一個對象在單獨的一個簇中,或者知足某個終止條件。函數

圖7  層次聚類之AGNESspa

    1)優勢: 適用於任意形狀和任意屬性的數據集;靈活控制不一樣層次的聚類粒度,強聚類能力。對象

    2)缺點: 大大延長了算法的執行時間,不能回溯處理。it

 

劃分聚類(Partition-based methods)

主要思想:io

    給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每個分組就表明一個聚類,K<N。對於給定的K,算法首先給出一個初始的分組方法,之後經過反覆迭代的方法改變分組,使得每一次改進以後的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不一樣分組中的紀錄越遠越好。擴展

圖8  劃分聚類之K-Meanssed

    1)優勢:應用最爲普遍;收斂速度快;能擴展以用於大規模的數據集。方法

    2) 缺點:傾向於識別凸形分佈、大小相近、密度相近的聚類;中心選擇和噪聲聚類對結果影響大。im

 

密度聚類(Density-based methods)

主要思想:

   大部分劃分方法基於對象之間的距離進行聚類。這樣的方法只能發現球狀簇,兒砸發現任意形狀的簇時遇到了困難。基於密度的聚類方法 假設聚類結構能經過樣本分佈的緊密程度肯定,其主要思想是:只要「鄰域」中的密度(對象或數據點的數目)超過某個閾值,就繼續增加給定的簇。一般狀況下,密度聚類算法從樣本的角度來考察樣本間的可鏈接性,並基於可鏈接樣本不斷擴展聚類簇以得到最終的聚類結果。

圖9  密度聚類之DBSCAN(Java版)

    1)優勢: 能夠識別出「凹」型聚類

    2)缺點: 在樣本數據較少時,不能得出相對正確的結論。

 

網格聚類(Grid-based methods)

主要思想:

    基於網格的方法,首先將數據空間劃分紅爲有限個cell,全部的處理都是以單個的單元爲對象的。這種方法的主要優勢是處理速度很快,其處理時間一般獨立於數據對象的個數,而僅依賴於量化空間中每一維的單元數。

    1)優勢:處理時間與數據對象的數目無關,與數據的輸入順序無關,能夠處理任意類型的數據

    2)缺點:處理時間與每維空間所劃分的單元數相關,必定程度上下降了聚類的質量和準確性

                                                                                                             

圖10  網格聚類之CLIQUE

模型聚類(Model-based methods

主要思想:

    基於模型的方法給每個聚類假定一個模型,而後去尋找可以很好的知足這個模型的數據集。這樣一個模型多是數據點在空間中的密度分佈函數或者其它。它的一個潛在的假定就是:目標數據集是由一系列的機率分佈所決定的。

相關文章
相關標籤/搜索