Python機器學習基礎教程-第2章-監督學習之K近鄰

前言

本系列教程基本就是摘抄《Python機器學習基礎教程》中的例子內容。html

爲了便於跟蹤和學習,本系列教程在Github上提供了jupyter notebook 版本:python

Github倉庫:https://github.com/Holy-Shine/Introduciton-2-ML-with-Python-notebookgit

系列教程總目錄
Python機器學習基礎教程github

引子

先導入必要的包算法

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn

%matplotlib inline

k-NN 算法能夠說是最簡單的機器學習算法。構建模型只須要保存訓練數據集便可。想要對新數據點作出預測,算法會在訓練數據集中找到最近的數據點,也就是它的「最近鄰」。app

1. k近鄰分類

k-NN 算法最簡單的版本只考慮一個最近鄰,也就是與咱們想要預測的數據點最近的訓練數據點。預測結果就是這個訓練數據點的已知輸出。下面代碼的運行結果(圖2-4) 給出了這種分類方法在 forge數據集上的應用:dom

mglearn.plots.plot_knn_classification(n_neighbors=1)
圖2-4 單一最近鄰模型對 forge 數據集的預測結果

這裏咱們添加了 3 個新數據點(用五角星表示)。對於每一個新數據點,咱們標記了訓練集中與它最近的點。單一最近鄰算法的預測結果就是那個點的標籤(對應五角星的顏色)。機器學習

除了僅考慮最近鄰,我還能夠考慮任意個(k 個)鄰居。這也是 k 近鄰算法名字的來歷。在考慮多於一個鄰居的狀況時,咱們用「投票法」(voting)來指定標籤。也就是說,對於每一個測試點,咱們數一數多少個鄰居屬於類別 0,多少個鄰居屬於類別 1。而後將出現次數更多的類別(也就是 k 個近鄰中佔多數的類別)做爲預測結果。下面的例子(圖 2-5)用到了 3 個近鄰:性能

mglearn.plots.plot_knn_classification(n_neighbors=3)
圖2-5: 3 近鄰模型對 forge 數據集的預測結果

和上面同樣,預測結果能夠從五角星的顏色看出。你能夠發現,左上角新數據點的預測結果與只用一個鄰居時的預測結果不一樣。學習

雖然這張圖對應的是一個二分類問題,但方法一樣適用於多分類的數據集。對於多分類問題,咱們數一數每一個類別分別有多少個鄰居,而後將最多見的類別做爲預測結果。

如今看一下如何經過 scikit-learn 來應用 k 近鄰算法。首先,正如第 1 章所述,將數據分爲訓練集和測試集,以便評估泛化性能:

from sklearn.model_selection import train_test_split
X, y = mglearn.datasets.make_forge()

X_train, X_test, y_train, y_test  =train_test_split(X, y, random_state=0)

而後,導入類並將其實例化。這時能夠設定參數,好比鄰居的個數。這裏咱們將其設爲 3:

from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=3)

如今,利用訓練集對這個分類器進行擬合。對於 KNeighborsClassifier 來講就是保存數據集,以便在預測時計算與鄰居之間的距離:

clf.fit(X_train, y_train)

[out]

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
metric_params=None, n_jobs=None, n_neighbors=3, p=2,
weights='uniform')

調用 predict 方法來對測試數據進行預測。對於測試集中的每一個數據點,都要計算它在訓練集的最近鄰,而後找出其中出現次數最多的類別:

print("Test set predictions: {}".format(clf.predict(X_test)))

[out]

Test set predictions: [1 0 1 0 1 0 0]

爲了評估模型的泛化能力好壞,咱們能夠對測試數據和測試標籤調用 score 方法:

print("Test set accuracy: {:.2f}".format(clf.score(X_test, y_test)))

[out]

Test set accuracy: 0.86

2. 分析 KNeighborsClassifier

對於二維數據集,咱們還能夠在 xy 平面上畫出全部可能的測試點的預測結果。咱們根據平面中每一個點所屬的類別對平面進行着色。這樣能夠查看決策邊界(decision boundary),即算法對類別 0 和類別 1 的分界線。

下列代碼分別將 1 個、3 個和 9 個鄰居三種狀況的決策邊界可視化,見圖 2-6:

fig, axes = plt.subplots(1,3, figsize=(10,3))

for n_neighbors, ax in zip([1,3,9], axes):
    # fit 方法返回對象自己,因此咱們能夠將實例化和擬合放在一行代碼中
    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X,y)
    mglearn.plots.plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=.4)
    mglearn.discrete_scatter(X[:,0], X[:,1], y, ax=ax)
    ax.set_title("{} neighbor(s)".format(n_neighbors))
    ax.set_xlabel("feature 0")
    ax.set_ylabel("feature 1")
axes[0].legend(loc=3)
圖 2-6:不一樣 n_neighbors 值的 k 近鄰模型的決策邊界

從左圖能夠看出,使用單一鄰居繪製的決策邊界緊跟着訓練數據。隨着鄰居個數愈來愈多,決策邊界也愈來愈平滑。更平滑的邊界對應更簡單的模型。換句話說,使用更少的鄰居對應更高的模型複雜度,而使用更多的鄰居對應更低的模型複雜度。假如考慮極端狀況,即鄰居個數等於訓練集中全部數據點的個數,那麼每一個測試點的鄰居都徹底相同(即全部訓練點),全部預測結果也徹底相同(即訓練集中出現次數最多的類別)。

咱們來研究一下可否證明以前討論過的模型複雜度和泛化能力之間的關係。咱們將在現實世界的乳腺癌數據集上進行研究。先將數據集分紅訓練集和測試集,而後用不一樣的鄰居個數對訓練集和測試集的性能進行評估。輸出結果見圖 2-7:

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=66)

training_accuracy=[]
test_accuracy=[]

# neighbors取值從1到10
neighbors_settings=range(1,11)

for n_neighbors in neighbors_settings:
    # 構建模型
    clf = KNeighborsClassifier(n_neighbors=n_neighbors)
    clf.fit(X_train, y_train)
    # 記錄訓練集精度
    training_accuracy.append(clf.score(X_train, y_train))
    # 記錄泛化精度
    test_accuracy.append(clf.score(X_test, y_test))

plt.plot(neighbors_settings, training_accuracy, label="training accuracy")
plt.plot(neighbors_settings, test_accuracy, label="test accuracy")
plt.ylabel("Accuracy")
plt.xlabel("n_neighbors")
plt.legend()
圖 2-7:以 n_neighbors 爲自變量,對比訓練集精度和測試集精度

圖像的 x 軸是 n_neighbors ,y 軸是訓練集精度和測試集精度。雖然現實世界的圖像不多有很是平滑的,但咱們仍能夠看出過擬合與欠擬合的一些特徵。僅考慮單一近鄰時,訓練集上的預測結果十分完美。但隨着鄰居個數的增多,模型變得更簡單,訓練集精度也隨之降低。單一鄰居時的測試集精度比使用更多鄰居時要低,這表示單一近鄰的模型過於複雜。與之相反,當考慮 10 個鄰居時,模型又過於簡單,性能甚至變得更差。最佳性能在中間的某處,鄰居個數大約爲 6。不過最好記住這張圖的座標軸刻度。最差的性能約爲 88% 的精度,這個結果仍然能夠接受。

3. K近鄰迴歸

k 近鄰算法還能夠用於迴歸(即把鄰居的平均值賦給目標)。咱們仍是先從單一近鄰開始,此次使用 wave 數據集。咱們添加了 3 個測試數據點,在 x 軸上用綠色五角星表示。利用單一鄰居的預測結果就是最近鄰的目標值。在圖 2-8 中用藍色五角星表示:

mglearn.plots.plot_knn_regression(n_neighbors=1)
圖 2-8:單一近鄰迴歸對 wave 數據集的預測結果

一樣,也能夠用多個近鄰進行迴歸。在使用多個近鄰時,預測結果爲這些鄰居的平均值

mglearn.plots.plot_knn_regression(n_neighbors=3)
圖 2-9:3 個近鄰迴歸對 wave 數據集的預測結果

用於迴歸的 k 近鄰算法在 scikit-learn 的 KNeighborsRegressor 類中實現。其用法與KNeighborsClassifier 相似:

from sklearn.neighbors import KNeighborsRegressor

X, y=mglearn.datasets.make_wave(n_samples=40)

# 劃分訓練測試集
X_train, X_test, y_train, y_test=train_test_split(X,y, random_state=0)

# 實例化模型,鄰居設定爲3
reg=KNeighborsRegressor(n_neighbors=3)
# 擬合模型
reg.fit(X_train, y_train)

[out]

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
metric_params=None, n_jobs=None, n_neighbors=3, p=2,
weights='uniform')

如今能夠對測試集進行預測:

print("Test set predictions:\n{}".format(reg.predict(X_test)))

[out]

print("Test set predictions:\n{}".format(reg.predict(X_test)))
Test set predictions:
[-0.05396539 0.35686046 1.13671923 -1.89415682 -1.13881398 -1.63113382
0.35686046 0.91241374 -0.44680446 -1.13881398]

咱們還能夠用 score 方法來評估模型,對於迴歸問題,這一方法返回的是 \(R^2\) 分數。\(R^2\) 分數也叫做決定係數,是迴歸模型預測的優度度量,位於 0 到 1 之間。\(R^2\) 等於 1 對應完美預測,\(R^2\) 等於 0 對應常數模型,即老是預測訓練集響應( y_train )的平均值:

print("Test set R^2: {:.2f}".format(reg.score(X_test, y_test)))

[out]

Test set R^2: 0.83

這裏的分數是 0.83,表示模型的擬合相對較好。

4. 分析 KNeighborsRegressor

對於咱們的一維數據集,能夠查看全部特徵取值對應的預測結果(圖 2-10)。爲了便於繪
圖,咱們建立一個由許多點組成的測試數據集

fig, axes = plt.subplots(1,3, figsize=(15,4))
#建立1000個數據點,在-3和3之間均勻分佈
line=np.linspace(-3,3,1000).reshape(-1,1)
for n_neighbors,ax in zip([1,3,9], axes):
    # 利用1,3,9個鄰居分別進行預測
    reg=KNeighborsRegressor(n_neighbors=n_neighbors)
    reg.fit(X_train, y_train)
    ax.plot(line, reg.predict(line))
    ax.plot(X_train, y_train, '^', c=mglearn.cm2(0), markersize=8)
    ax.plot(X_test, y_test, 'v', c=mglearn.cm2(1), markersize=8)
    ax.set_title(
        "{} neighbor(s)\n train score: {:.2f} test score: {:.2f}".format(
            n_neighbors, 
            reg.score(X_train, y_train),
            reg.score(X_test, y_test)))
    ax.set_xlabel("Feature")
    ax.set_ylabel("Target")
axes[0].legend(["Model predictions", "Training data/target",
                "Test data/target"], loc="best")

圖 2-10:不一樣 n_neighbors 值的 k 近鄰迴歸的預測結果對比

從圖中能夠看出,僅使用單一鄰居,訓練集中的每一個點都對預測結果有顯著影響,預測結果的圖像通過全部數據點。這致使預測結果很是不穩定。考慮更多的鄰居以後,預測結果變得更加平滑,但對訓練數據的擬合也很差。

5. 優勢、缺點和參數

通常來講, KNeighbors 分類器有 2 個重要參數:鄰居個數與數據點之間距離的度量方法。在實踐中,使用較小的鄰居個數(好比 3 個或 5 個)每每能夠獲得比較好的結果,但你應該調節這個參數。選擇合適的距離度量方法超出了本書的範圍。默認使用歐式距離,它在許多狀況下的效果都很好。

k-NN 的優勢之一就是模型很容易理解,一般不須要過多調節就能夠獲得不錯的性能。在考慮使用更高級的技術以前,嘗試此算法是一種很好的基準方法。構建最近鄰模型的速度一般很快,但若是訓練集很大(特徵數不少或者樣本數很大),預測速度可能會比較慢。使用 k-NN 算法時,對數據進行預處理是很重要的(見第 3 章)。這一算法對於有不少特徵(幾百或更多)的數據集每每效果很差,對於大多數特徵的大多數取值都爲 0 的數據集(所謂的稀疏數據集)來講,這一算法的效果尤爲很差。

雖然 k 近鄰算法很容易理解,但因爲預測速度慢且不能處理具備不少特徵的數據集,因此在實踐中每每不會用到。

相關文章
相關標籤/搜索