機器學習常見的聚類模式

時間 2019-11-11

標籤機器學習常見的模式简体版

原文原文鏈接

層次聚類（Hierarchical methods）

主要思想：算法

試圖在不一樣層次上對數據集進行劃分，從而造成樹形的聚類結構。數據集的劃分能夠採用「自底向上」的聚合策略，開始將每一個對象做爲單獨的一個組，而後逐次合併相近的對象或組，直到全部的組合併爲一個組，或者知足某個終止條件；也可採用「自頂向下」的分拆策略，開始將全部的對象置於一個簇中。在每次相繼迭代中，每一個簇被劃分紅更小的簇，直到最終每一個對象在單獨的一個簇中，或者知足某個終止條件。函數

圖7 層次聚類之AGNESspa

1）優勢： 適用於任意形狀和任意屬性的數據集；靈活控制不一樣層次的聚類粒度，強聚類能力。對象

2）缺點： 大大延長了算法的執行時間，不能回溯處理。it

劃分聚類（Partition-based methods）

主要思想：io

給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每個分組就表明一個聚類，K<N。對於給定的K，算法首先給出一個初始的分組方法，之後經過反覆迭代的方法改變分組，使得每一次改進以後的分組方案都較前一次好，而所謂好的標準就是：同一分組中的記錄越近越好，而不一樣分組中的紀錄越遠越好。擴展

圖8 劃分聚類之K-Meanssed

1）優勢：應用最爲普遍；收斂速度快；能擴展以用於大規模的數據集。方法

2） 缺點：傾向於識別凸形分佈、大小相近、密度相近的聚類；中心選擇和噪聲聚類對結果影響大。im

密度聚類（Density-based methods）

主要思想：

大部分劃分方法基於對象之間的距離進行聚類。這樣的方法只能發現球狀簇，兒砸發現任意形狀的簇時遇到了困難。基於密度的聚類方法假設聚類結構能經過樣本分佈的緊密程度肯定，其主要思想是：只要「鄰域」中的密度（對象或數據點的數目）超過某個閾值，就繼續增加給定的簇。一般狀況下，密度聚類算法從樣本的角度來考察樣本間的可鏈接性，並基於可鏈接樣本不斷擴展聚類簇以得到最終的聚類結果。

圖9 密度聚類之DBSCAN（Java版）

1）優勢： 能夠識別出「凹」型聚類

2）缺點： 在樣本數據較少時，不能得出相對正確的結論。