kNN算法：K最近鄰(kNN，k-NearestNeighbor)分類算法

時間 2019-11-29

標籤 knn 算法近鄰 nearestneighbor 分類简体版

原文原文鏈接

1、KNN算法概述

　　鄰近算法，或者說K最近鄰(kNN，k-NearestNeighbor)分類算法是數據挖掘分類技術中最簡單的方法之一。所謂K最近鄰，就是k個最近的鄰居的意思，說的是每一個樣本均可以用它最接近的k個鄰居來表明。Cover和Hart在1968年提出了最初的鄰近算法。KNN是一種分類(classification)算法，它輸入基於實例的學習（instance-based learning），屬於懶惰學習（lazy learning）即KNN沒有顯式的學習過程，也就是說沒有訓練階段，數據集事先已有了分類和特徵值，待收到新樣本後直接進行處理。與急切學習（eager learning）相對應。python

　　KNN是經過測量不一樣特徵值之間的距離進行分類。算法

　　思路是：若是一個樣本在特徵空間中的k個最鄰近的樣本中的大多數屬於某一個類別，則該樣本也劃分爲這個類別。KNN算法中，所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。dom

　　提到KNN，網上最多見的就是下面這個圖，能夠幫助你們理解。機器學習

　　咱們要肯定綠點屬於哪一個顏色（紅色或者藍色），要作的就是選出距離目標點距離最近的k個點，看這k個點的大多數顏色是什麼顏色。當k取3的時候，咱們能夠看出距離最近的三個，分別是紅色、紅色、藍色，所以獲得目標點爲紅色。ide

　　算法的描述：

　　1）計算測試數據與各個訓練數據之間的距離；函數

　　2）按照距離的遞增關係進行排序；學習

　　3）選取距離最小的K個點；測試

　　4）肯定前K個點所在類別的出現頻率；大數據

　　5）返回前K個點中出現頻率最高的類別做爲測試數據的預測分類idea

2、關於K的取值

　　K：臨近數，即在預測目標點時取幾個臨近的點來預測。

　　K值得選取很是重要，由於：

　　若是當K的取值太小時，一旦有噪聲得成分存在們將會對預測產生比較大影響，例如取K值爲1時，一旦最近的一個點是噪聲，那麼就會出現誤差，K值的減少就意味着總體模型變得複雜，容易發生過擬合；

　　若是K的值取的過大時，就至關於用較大鄰域中的訓練實例進行預測，學習的近似偏差會增大。這時與輸入目標點較遠實例也會對預測起做用，使預測發生錯誤。K值的增大就意味着總體的模型變得簡單；

　　若是K==N的時候，那麼就是取所有的實例，即爲取實例中某分類下最多的點，就對預測沒有什麼實際的意義了；

　　K的取值儘可能要取奇數，以保證在計算結果最後會產生一個較多的類別，若是取偶數可能會產生相等的狀況，不利於預測。

　　K的取法：

　　經常使用的方法是從k=1開始，使用檢驗集估計分類器的偏差率。重複該過程，每次K增值1，容許增長一個近鄰。選取產生最小偏差率的K。

　　通常k的取值不超過20，上限是n的開方，隨着數據集的增大，K的值也要增大。

3、關於距離的選取

　　距離就是平面上兩個點的直線距離

　　關於距離的度量方法，經常使用的有：歐幾里得距離、餘弦值（cos）, 相關度（correlation）, 曼哈頓距離（Manhattan distance）或其餘。

　　Euclidean Distance 定義：

　　兩個點或元組P1=（x1，y1）和P2=（x2，y2）的歐幾里得距離是

　　距離公式爲：（多個維度的時候是多個維度各自求差）

4、總結

　　KNN算法是最簡單有效的分類算法，簡單且容易實現。當訓練數據集很大時，須要大量的存儲空間，並且須要計算待測樣本和訓練數據集中全部樣本的距離，因此很是耗時

　　KNN對於隨機分佈的數據集分類效果較差，對於類內間距小，類間間距大的數據集分類效果好，並且對於邊界不規則的數據效果好於線性分類器。

　　KNN對於樣本不均衡的數據效果很差，須要進行改進。改進的方法時對k個近鄰數據賦予權重，好比距離測試樣本越近，權重越大。

　　KNN很耗時，時間複雜度爲O(n)，通常適用於樣本數較少的數據集，當數據量大時，能夠將數據以樹的形式呈現，能提升速度，經常使用的有kd-tree和ball-tree。

　　（弱小無助。。。根據許多大佬的總結整理的）

5、Python實現

　　根據算法的步驟，進行kNN的實現,完整代碼以下

 1 import numpy as np
 2 from math import sqrt
 3 import operator as opt
 4 
 5 def normData(dataSet):
 6     maxVals = dataSet.max(axis=0)
 7     minVals = dataSet.min(axis=0)
 8     ranges = maxVals - minVals
 9     retData = (dataSet - minVals) / ranges
10     return retData, ranges, minVals
11 
12 
13 def kNN(dataSet, labels, testData, k):
14     distSquareMat = (dataSet - testData) ** 2 # 計算差值的平方
15     distSquareSums = distSquareMat.sum(axis=1) # 求每一行的差值平方和
16     distances = distSquareSums ** 0.5 # 開根號，得出每一個樣本到測試點的距離
17     sortedIndices = distances.argsort() # 排序，獲得排序後的下標
18     indices = sortedIndices[:k] # 取最小的k個
19     labelCount = {} # 存儲每一個label的出現次數
20     for i in indices:
21         label = labels[i]
22         labelCount[label] = labelCount.get(label, 0) + 1 # 次數加一
23     sortedCount = sorted(labelCount.items(), key=opt.itemgetter(1), reverse=True) # 對label出現的次數從大到小進行排序
24     return sortedCount[0][0] # 返回出現次數最大的label
25 
26 
27 
28 if __name__ == "__main__":
29     dataSet = np.array([[2, 3], [6, 8]])
30     normDataSet, ranges, minVals = normData(dataSet)
31     labels = ['a', 'b']
32     testData = np.array([3.9, 5.5])
33     normTestData = (testData - minVals) / ranges
34     result = kNN(normDataSet, labels, normTestData, 1)
35     print(result)

6、sklearn庫的應用

　　我利用了sklearn庫來進行了kNN的應用（這個庫是真的很方便了，能夠藉助這個庫好好學習一下，我是用KNN算法進行了根據成績來預測，這裏用一個花瓣萼片的實例，由於這篇主要是關於KNN的知識，因此不對sklearn的過多的分析，並且我用的還不深刻😅）

　　sklearn庫內的算法與本身手搓的相比功能更強大、拓展性更優異、易用性也更強。仍是很受歡迎的。（確實好用，簡單）

1 from sklearn import neighbors   //包含有kNN算法的模塊
2 from sklearn import datasets    //一些數據集的模塊

　　調用KNN的分類器

1 knn = neighbors.KNeighborsClassifier()

　　預測花瓣代碼

from sklearn import neighbors          
from sklearn import datasets

knn = neighbors.KNeighborsClassifier()

iris = datasets.load_iris()

# f = open("iris.data.csv", 'wb')              #能夠保存數據
# f.write(str(iris))
# f.close()

print iris

knn.fit(iris.data, iris.target)                 #用KNN的分類器進行建模，這裏利用的默認的參數，你們能夠自行查閱文檔

predictedLabel = knn.predict([[0.1, 0.2, 0.3, 0.4]])

print ("predictedLabel is :" + predictedLabel)

　　上面的例子是隻預測了一個，也能夠進行數據集的拆分，將數據集劃分爲訓練集和測試集

from sklearn.mode_selection import train_test_split   #引入數據集拆分的模塊

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

　　關於 train_test_split 函數參數的說明：

　　train_data：被劃分的樣本特徵集

　　train_target：被劃分的樣本標籤

　　test_size：float-得到多大比重的測試樣本（默認：0.25）

　　　　　　　int - 得到多少個測試樣本

　　random_state：是隨機數的種子。