引用自 github , git
概述:github
k-近鄰(kNN, k-NearestNeighbor)算法是一種基本分類與迴歸方法,咱們這裏只討論分類問題中的 k-近鄰算法。算法
原理:apache
- 假設有一個帶有標籤的樣本數據集(訓練樣本集),其中包含每條數據與所屬分類的對應關係。
- 輸入沒有標籤的新數據後,將新數據的每一個特徵與樣本集中數據對應的特徵進行比較。
- 計算新數據與樣本數據集中每條數據的距離。
- 求得的全部距離進行排序(從小到大,越小表示越類似)。
- 前 k (k 通常小於等於 20 )個樣本數據對應的分類標籤。
- 求 k 個數據中出現次數最多的分類標籤做爲新數據的分類。