經常使用聚類算法(一) DBSCAN算法

一、DBSCAN簡介

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具備噪聲的基於密度的聚類方法)是一種基於密度的空間聚類算法。該算法將具備足夠密度的區域劃分爲簇,並在具備噪聲的空間數據庫中發現任意形狀的簇,它將簇定義爲密度相連的點的最大集合。算法

該算法利用基於密度的聚類的概念,即要求聚類空間中的必定區域內所包含對象(點或其餘空間對象)的數目不小於某一給定閾值。DBSCAN算法的顯著優勢是聚類速度快且可以有效處理噪聲點和發現任意形狀的空間聚類。可是因爲它直接對整個數據庫進行操做且進行聚類時使用了一個全局性的表徵密度的參數,所以也具備兩個比較明顯的弱點:數據庫

(1)當數據量增大時,要求較大的內存支持I/O消耗也很大;閉包

(2)當空間聚類的密度不均勻、聚類間距差相差很大時,聚類質量較差。3d

 


二、DBSCAN和傳統聚類算法對比

DBSCAN算法的目的在於過濾低密度區域,發現稠密度樣本點。跟傳統的基於層次的聚類和劃分聚類的凸形聚類簇不一樣,該算法能夠發現任意形狀的聚類簇,與傳統的算法相比它有以下優勢:對象

(1)與K-MEANS比較起來,不須要輸入要劃分的聚類個數;blog

(2)聚類簇的形狀沒有偏倚;ip

(3)能夠在須要時輸入過濾噪聲的參數;內存


三、算法涉及的基本定義:

1clip_image002鄰域:給定對象半徑 clip_image004 內的區域稱爲該對象的clip_image006鄰域。get

2)核心對象:若是給定對象clip_image008 鄰域內的樣本點數大於等於MinPts,則稱該對象爲核心對象。it

3)直接密度可達:給定一個對象集合D,若是p在q的clip_image010鄰域內,且q是一個核心對象,則咱們說對象p從對象q出發是直接密度可達的(directly density-reachable)。

4)密度可達:對於樣本集合D,若是存在一個對象鏈clip_image012clip_image014,對於clip_image016clip_image018 是從 clip_image020關於clip_image004[1]和 MinPts直接密度可達,則對象p是從對象q關於clip_image006[1]和 MinPts密度可達的(density-reachable)。

5)密度相連:若是存在對象clip_image022,使對象p和q都是從o關於clip_image006[2]和 MinPts密度可達的,那麼對象p到q是關於clip_image006[3]和 MinPts密度相連的(density-connected)。

 

能夠發現,密度可達是直接密度可達的傳遞閉包,而且這種關係是非對稱的。只有核心對象之間相互密度可達。然而,密度相連是對稱關係。DBSCAN目的是找到密度相連對象的最大集合。


四、DBSCAN算法的聚類過程

DBSCAN算法基於一個事實:一個聚類能夠由其中的任何核心對象惟一肯定。等價能夠表述爲:任一知足核心對象條件的數據對象p,數據庫D中全部從p密度可達的數據對象o所組成的集合構成了一個完整的聚類C,且p屬於C。

 

算法的具體聚類過程以下:

      掃描整個數據集,找到任意一個核心點,對該核心點進行擴充。擴充的方法是尋找從該核心點出發的全部密度相連的數據點(注意是密度相連)。遍歷該核心點的clip_image006[4]鄰域內的全部核心點(由於邊界點是沒法擴充的),尋找與這些數據點密度相連的點,直到沒有能夠擴充的數據點爲止。最後聚類成的簇的邊界節點都是非核心數據點。以後就是從新掃描數據集(不包括以前尋找到的簇中的任何數據點),尋找沒有被聚類的核心點,再重複上面的步驟,對該核心點進行擴充直到數據集中沒有新的核心點爲止。數據集中沒有包含在任何簇中的數據點就構成異常點。


五、算法僞代碼

算法描述:

算法: DBSCAN

輸入: E——半徑

MinPts——給定點在E鄰域內成爲核心對象的最小鄰域點數。

D——集合。

輸出: 目標類簇集合

方法: Repeat

1) 判斷輸入點是否爲核心對象

2) 找出核心對象的E鄰域中的全部直接密度可達點。

Until 全部輸入點都判斷完畢

Repeat

針對全部核心對象的E鄰域內全部直接密度可達點找到最大密度相連對象集合,中間涉及到一些密度可達對象的合併。

Until 全部核心對象的E領域都遍歷完畢

相關文章
相關標籤/搜索