5.機器學習——DBSCAN聚類算法

1.優缺點

優勢:算法

(1)聚類速度快且可以有效處理噪聲點和發現任意形狀的空間聚類;.net

(2)與K-MEANS比較起來,不須要輸入要劃分的聚類個數;blog

(3)聚類簇的形狀沒有偏倚;內存

(4)能夠在須要時輸入過濾噪聲的參數。get

缺點:原理

(1)當數據量增大時,要求較大的內存支持I/O消耗也很大;im

(2)當空間聚類的密度不均勻、聚類間距差相差很大時,聚類質量較差,由於這種狀況下參數MinPts和Eps選取困難。數據

(3)算法聚類效果依賴與距離公式選取,實際應用中經常使用歐式距離,對於高維數據,存在「維數災難」。img

參考co

2.原理

DBSCAN參數

Eps——距離閾值,該聚類算法中把距離當作密度表達,距離如何計算也很重要。

MinPts——造成一個核心點所須要最小的直接可達點數,例如改參數設置爲5,Eps設置爲2,那麼一個核心點(包含本身)造成的條件是該核心店距離閾值2之內至少有5個點。

待聚類點分爲三類:

  1. 直接可達點   核心點距離閾值內的點成爲直接可達點
  2. 可達點   屬於不一樣核心點的直接的可達點經過核心點組成的路徑(相鄰核心點之間在各自距離閾值內)相連,那麼這些直接可達點被稱爲可達點
  3. 局外點    既不是核心點也不是直接可達點也不是可達點被稱爲局外點,也可叫作噪聲點

3.聚類

同一組直接可達點與可達點造成一個類簇,局外點造成噪聲點

相關文章
相關標籤/搜索