樣本點中的關鍵度量指標:距離
TF-IDF矩陣
聚類算法
一、開始時每一個樣本各自做爲一類;
二、規定某種度量做爲樣本間距及類與類之間的距離,並計算;
三、將距離最短的兩個類聚爲一個新類;
四、重複2-3,不斷彙集最近的兩個類,每次減小一個類,直到全部樣本被聚爲一類;算法
一、選擇K個點做爲初始質心;
二、將每一個點指派到最近的質心,造成K個簇(聚類)
三、從新計算每一個簇的質心;
四、重複2-3直至質心基本不變,此時算法達到穩定狀態;
須要屢次運行,而後比較各次運行結果,而後選取最優解,K值使用肘部法則進行肯定;markdown
類相互之間的距離的計算方法