機器學習總結(十):經常使用聚類算法(Kmeans、密度聚類、層次聚類)及常見問題

任務:將數據集中的樣本劃分紅若干個一般不相交的子集。面試 性能度量:類內類似度高,類間類似度低。兩大類:1.有參考標籤,外部指標;2.無參照,內部指標。算法 距離計算:非負性,同一性(與自身距離爲0),對稱性,直遞性(三角不等式)。包括歐式距離,曼哈頓距離等等。app (1)    K均值聚類步驟:1.隨機選擇k個樣本做爲初始均值向量;2.計算樣本到各均值向量的距離,把它劃到距離最小的簇;3.計算
相關文章
相關標籤/搜索