機器學習筆記——k-近鄰算法(一)(摘抄於《機器學習實戰》)

k-近鄰算法

k-近鄰算法(kNN),它的工做原理是:存在一個樣本數
據集合,也稱做訓練樣本集,而且樣本集中每一個數據都存在標籤,即咱們知道樣本集中每一數據
與所屬分類的對應關係。輸入沒有標籤的新數據後,將新數據的每一個特徵與樣本集中數據對應的
特徵進行比較,而後算法提取樣本集中特徵最類似數據(最近鄰)的分類標籤。通常來講,咱們
只選擇樣本數據集中前k個最類似的數據,這就是k-近鄰算法中k的出處,一般k是不大於20的整數。
最後,選擇k個最類似數據中出現次數最多的分類,做爲新數據的分類。
 

k-近鄰算法的通常流程

(1) 收集數據:能夠使用任何方法。
(2) 準備數據:距離計算所須要的數值,最好是結構化的數據格式。
(3) 分析數據:能夠使用任何方法。
(4) 訓練算法:此步驟不適用於k-近鄰算法。
(5) 測試算法:計算錯誤率。
(6) 使用算法:首先須要輸入樣本數據和結構化的輸出結果,而後運行k-近鄰算法斷定輸
入數據分別屬於哪一個分類,最後應用對計算出的分類執行後續的處理。
 
 
 

後期學完會努力更新筆記

相關文章
相關標籤/搜索