感知機：教程，實現和可視示例

時間 2020-07-08

標籤感知教程實現示例简体版

原文原文鏈接

做者|Dorian Lazar 編譯|VK 來源|Towards Data Sciencepython

感知器是人工神經網絡的組成部分，它是大腦中生物神經元的簡化模型。感知器是最簡單的神經網絡，僅由一個神經元組成。感知器算法由Frank Rosenblatt於1958年發明。算法

如下是生物神經元的圖示：數組

經由樹突接收到神經元的大部分輸入信號。其餘神經元與這些樹突造成約1,000至10,000個鏈接。來自鏈接的信號稱爲突觸，經過樹突傳播到細胞體內。細胞體內的電位增長，一旦達到閾值，神經元就會沿着軸突發出一個尖峯，該軸突經過軸突末端鏈接到大約100個其餘神經元。網絡

感知器是真實神經元的簡化模型，它嘗試經過如下過程來模仿它：接收輸入信號，將它們稱爲x1，x2，…，xn，計算這些輸入的加權和z，而後將其傳遞閾值函數ϕ並輸出結果。app

但將w0做爲閾值和將w0做爲偏置添加到和中並將閾值改成0是同樣的。咱們考慮一個始終設置爲1的附加輸入信號x0。機器學習

下面是一個感知器：函數

要使用向量表示法，咱們能夠將全部輸入x0、x一、…、xn和全部權重w0、w一、…、wn放入向量x和w中，當它們的點積爲正時輸出1，不然輸出-1。學習

如下是僅使用2個輸入x1和x2的幾何表示，以便咱們能夠在2維中繪製：測試

如上所示，具備2個輸入的感知器的決策邊界是一條直線。若是有3個輸入，則決策邊界爲二維平面。通常來講，若是咱們有n個輸入，決策邊界將是一個稱爲n-1維的超平面，該超平面將咱們的n維特徵空間分紅兩部分：一部分是將點分類爲正的，另外一部分是將點分類爲負的(按照慣例，咱們將認爲剛好在決策邊界上的點是負的)。所以，感知器是一個二元分類器，其權值是線性的。動畫

在上面的圖像中，w'表示沒有偏移項w0的權重向量。w'垂直於決策邊界並指向正分類點的性質。該向量決定了決策邊界的斜率，而偏移項w0決定了決策邊界沿w'軸的偏移。

到目前爲止，咱們討論了感知器如何根據輸入信號及其權值作出決策。可是，感知者其實是如何學習的呢？如何找到合適的參數w0，w1，…，wn，以便進行良好的分類？

感知器算法是基於如下簡單更新規則的迭代算法：

其中y是當前數據點x的標籤(要麼-1要麼+1)，w是權重向量。

咱們的更新規則怎麼說？點積x⋅w只是感知器基於當前權重的預測(其符號與預測標籤的符號相同)。表達式y(x⋅w)只能小於或等於0，前提是實際標籤y不一樣於預測標籤φ(x⋅w)。所以，若是真標籤和預測標籤之間不匹配，那麼咱們更新權重：w=w+yx；不然，咱們讓它們保持原樣。

那麼，爲何w=w+yx更新規則有效？由於它試圖在if條件下將y(x⋅w)的值推向0的正邊，從而正確地對x進行分類。若是數據集是線性可分的，經過對每一個點進行必定次數的迭代，權值最終會收斂到每一個點都被正確分類的狀態。讓咱們經過在更新後從新評估if條件來查看更新規則的效果：

也就是說，在特定數據點的權重更新以後，if條件中的表達式應該更接近於正數，從而正確分類。

僞代碼中的完整感知器算法以下：

Python實現

咱們如今將在python中從頭開始實現感知器算法，只使用numpy做爲矩陣向量操做的外部庫。咱們將把它做爲一個類來實現，這個類的接口相似於Scikit-Learn這樣的通用機器學習包中的其餘分類器。咱們將爲此類實現3個方法：.fit()、.predict()和.score()。

.fit()方法將用於訓練感知器。它指望第一個參數是2D numpy數組X。該數組的行是數據集的樣本，列是特徵。第二個參數y應該是1D的numpy數組，它包含X中每行數據的標籤。第三個參數n_iter是咱們讓算法運行的迭代次數。

def fit(self, X, y, n_iter=100):

    n_samples = X.shape[0]
    n_features = X.shape[1]

    # 偏置都加1
    self.weights = np.zeros((n_features+1,))

    X = np.concatenate([X, np.ones((n_samples, 1))], axis=1)

    for i in range(n_iter):
        for j in range(n_samples):
            if y[j]*np.dot(self.weights, X[j, :]) <= 0:
                self.weights += y[j]*X[j, :]

.predict()方法將用於預測新數據的標籤。它首先檢查weights對象屬性是否存在，若是不存在，則表示感知器還沒有訓練，而後顯示警告消息並返回。該方法須要一個與.fit()方法形狀相同的參數X。而後咱們在X和權重之間作一個矩陣乘法，而後把它們映射到-1或+1。咱們使用np.vectorize()將此映射應用於矩陣乘法結果向量中的全部元素。

def predict(self, X):
    if not hasattr(self, 'weights'):
        print('The model is not trained yet!')
        return

    n_samples = X.shape[0]
    X = np.concatenate([X, np.ones((n_samples, 1))], axis=1)
    y = np.matmul(X, self.weights)
    y = np.vectorize(lambda val: 1 if val > 0 else -1)(y)

    return y

score()方法計算並返回預測的準確性。它指望輸入矩陣X和標籤向量y做爲參數。

def score(self, X, y):
    pred_y = self.predict(X)

    return np.mean(y == pred_y)

幾個例子

我如今要作的是展現幾個可視化的例子，說明決策邊界是如何收斂到一個解的。

爲了作到這一點，我將使用ScikitLearn的datasets.make_classification()和datasets.make_circles()函數建立幾個由200個樣本組成的2特徵分類數據集。這是用於建立下兩個數據集的代碼：

X, y = make_classification(
    n_features=2,
    n_classes=2,
    n_samples=200,
    n_redundant=0,
    n_clusters_per_class=1
)

還有一個數據集:

X, y = make_circles(n_samples=200, noise=0.03, factor=0.7)

對於每一個示例，我將把數據分紅150個用於訓練，50個用於測試。左邊顯示訓練集，右邊顯示測試集。當決策邊界收斂到一個解決方案時，決策邊界將在兩邊顯示。可是決策邊界將僅根據左邊的數據(訓練集)進行更新。

例1 線性可分的

我要展現的第一個數據集是線性可分的。下面是完整數據集的圖像:

這是一個簡單的數據集，咱們的感知器算法在通過訓練集的兩次迭代後就會收斂到一個解。所以，每一個數據點的動畫幀都會改變。綠點是目前在算法中測試的那個。

在該數據集上，算法對訓練樣本和測試樣本進行了正確分類。

例2 噪聲數據集

若是數據集不是線性可分的呢？若是正反兩個例子像下圖同樣混淆在一塊兒呢？

好吧，感知器算法將不能正確分類全部的例子，但它將試圖找到一條線，最好的分開他們。在這個例子中，咱們的感知器獲得了88%的測試精度。下面的動畫幀在每次迭代後都會經過全部訓練示例進行更新。

例3 非線性數據集

下面的數據集如何呢？

它是可分離的，但顯然不是線性的。因此你可能會認爲一個感知器不適合這個任務。但感知器的問題是，它的決策邊界是線性的，就權重而言，不必定就輸入而言。咱們能夠擴充輸入向量x，使其包含原始輸入的非線性函數。例如，除了原始輸入x1和x2以外，咱們還能夠將項x1平方、x1乘以x2和x2平方相加。

下面的 polynomial_features(X, p)(X，p)函數可以將輸入矩陣X轉換成一個矩陣，該矩陣包含p次多項式的全部項做爲特徵。它使用polynom()函數計算表示要相乘列的索引列表，以得到p階項。

def polynom(indices_list, indices, a, b, p):
    indices = [*indices]
    if p == 0:
        indices_list.append(indices)
        return
    for i in range(a, b):
        indices.append(i)
        polynom(indices_list, indices, i, b, p-1)
        indices = indices[0:-1]

def polynomial_features(X, p):
    n, d = X.shape
    features = []
    for i in range(1, p+1):
        l = []
        polynom(l, [], 0, d, i)
        for indices in l:
            x = np.ones((n,))
            for idx in indices:
                x = x * X[:, idx]
            features.append(x)
    return np.stack(features, axis=1)

在咱們的例子中，咱們將在X矩陣中添加2級項做爲新特徵。