優勢:算法
(1)聚類速度快且可以有效處理噪聲點和發現任意形狀的空間聚類;.net
(2)與K-MEANS比較起來,不須要輸入要劃分的聚類個數;blog
(3)聚類簇的形狀沒有偏倚;內存
(4)能夠在須要時輸入過濾噪聲的參數。get
缺點:原理
(1)當數據量增大時,要求較大的內存支持I/O消耗也很大;im
(2)當空間聚類的密度不均勻、聚類間距差相差很大時,聚類質量較差,由於這種狀況下參數MinPts和Eps選取困難。數據
(3)算法聚類效果依賴與距離公式選取,實際應用中經常使用歐式距離,對於高維數據,存在「維數災難」。img
參考co
DBSCAN參數
Eps——距離閾值,該聚類算法中把距離當作密度表達,距離如何計算也很重要。
MinPts——造成一個核心點所須要最小的直接可達點數,例如改參數設置爲5,Eps設置爲2,那麼一個核心點(包含本身)造成的條件是該核心店距離閾值2之內至少有5個點。
待聚類點分爲三類:
同一組直接可達點與可達點造成一個類簇,局外點造成噪聲點