Mahout聚類算法學習之Canopy算法的分析與實現

3.1 Canopy算法 3.1.1 Canopy算法簡介      Canopy算法的主要思想是把聚類分爲兩個階段:階段一,通過使用一個簡單、快捷的距離計算方法把數據分爲可重疊的子集,稱爲「canopy」;階段二,通過使用一個精準、嚴密的距離計算方法來計算出現在階段一中同一個canopy的所有數據向量的距離。這種方式和之前的聚類方式不同的地方在於使用了兩種距離計算方式,同時因爲只計算了重疊部分的
相關文章
相關標籤/搜索