深度學習原理—代碼分析線性分類與神經網絡分類的區別

時間 2019-12-10

原文原文鏈接

利用sklearn.dataset隨機產生數據，隨機生成兩類數據，用不一樣的顏色展現出來，以下圖：html

產生的隨機代碼以下：算法

#隨機產生的數據
np.random.seed(0)
X,y=datasets.make_moons(300,noise=0.25)

plt.scatter(X[:,0],X[:,1],s=50,c=y,cmap=plt.cm.Vega20c,edgecolors="Black")
plt.title('Random data')
plt.show()

1、線性分類網絡

先使用sklearn自帶的線性分類方法，將上面的數據分爲兩類，代碼和效果圖以下：dom

from sklearn import linear_model
from sklearn import datasets
import sklearn
import numpy as np
import matplotlib.pyplot as plt

#繪製分類邊界函數
def plot_boundary(pred_func,data,labels):

    x_min,x_max=data[:,0].min()-0.5,data[:,0].max()+0.5
    y_min,y_max=data[:,1].min()-0.5,data[:,1].max()+0.5
    h=0.01

    xx,yy=np.meshgrid(np.arange(x_min,x_max,h),np.arange(y_min,y_max,h))

    z=pred_func(np.c_[xx.ravel(),yy.ravel()])
    z=z.reshape(xx.shape)

    plt.contourf(xx,yy,z,cmap=plt.cm.Blues,alpha=0.2)
    plt.scatter(data[:,0],data[:,1],s=40,c=labels,cmap=plt.cm.Vega20c,edgecolors="Black")
    plt.show()


#線性分類
logistic_fun=sklearn.linear_model.LogisticRegressionCV()
clf=logistic_fun.fit(X,y)

#展現分類圖
plot_boundary(lambda x:clf.predict(x),X,y)
plt.title("Logistic Regression")

2、神經網絡分類函數

定義以下圖所示的神經網絡：學習

網絡結構：輸入層、隱藏層、輸出層【2，3，2】spa

激活函數使用Tanh函數，最後經過Softmax層把激活函數的輸出轉換爲機率 code

對於分類問題，損失函數使用交叉熵損失，公式以下：htm

其中，p爲指望機率分佈（實際值），q爲網絡輸出（預測值）blog

而爲了不過擬合，可添加L2正則化，新的損失函數即爲：

關於反向傳播與參數更新可參看這篇博客：https://www.cnblogs.com/wangyong/p/9740170.html

接下來，直接查看代碼：

from sklearn import datasets
import sklearn
import numpy as np
import matplotlib.pyplot as plt

input_dim=2 #輸入維度

output_dim=2 #輸出的維度，分類數

epsilon=0.01 #梯度降低算法的學習率

reg_lambda=0.01

def calculate_loss(model,X,y):

    num_examples=len(X)

    W1,b1,W2,b2=model['W1'],model['b1'],model['W2'],model['b2']

    #正向傳播計算預測值
    z1=X.dot(W1)+b1
    a1=np.tanh(z1)
    z2=a1.dot(W2)+b2

    #Softmax計算機率
    exp_scores=np.exp(z2)
    probs=exp_scores/np.sum(exp_scores,axis=1,keepdims=True)

    #交叉熵損失
    corect_logprobs=-np.log(probs[range(num_examples),y])
    data_loss=np.sum(corect_logprobs)

    #L2正則化
    data_loss+=reg_lambda/2*(np.sum(np.square(W1))+np.sum(np.square(W2)))
    return (1.0/num_examples)*data_loss

def predict(model,x):

    W1,b1,W2,b2=model['W1'],model['b1'],model['W2'],model['b2']

    #向前傳播
    z1=x.dot(W1)+b1
    a1=np.tanh(z1)
    z2=a1.dot(W2)+b2
    exp_scores=np.exp(z2)
    probs=exp_scores/np.sum(exp_scores,axis=1,keepdims=True)
    return np.argmax(probs,axis=1)

def plot_boundary(pred_func,data,labels):

    x_min,x_max=data[:,0].min()-0.5,data[:,0].max()+0.5
    y_min,y_max=data[:,1].min()-0.5,data[:,1].max()+0.5
    h=0.01

    xx,yy=np.meshgrid(np.arange(x_min,x_max,h),np.arange(y_min,y_max,h))

    z=pred_func(np.c_[xx.ravel(),yy.ravel()])
    z=z.reshape(xx.shape)

    plt.contourf(xx,yy,z,cmap=plt.cm.Blues,alpha=0.2)
    plt.scatter(data[:,0],data[:,1],s=40,c=labels,cmap=plt.cm.Vega20c,edgecolors="Black")
    plt.show()

def ANN_model(X,y,nn_dim):

    num_indim=len(X) #訓練數據集
    model={}

    np.random.seed(0)

    W1=np.random.randn(input_dim,nn_dim)/np.sqrt(input_dim)
    b1=np.zeros((1,nn_dim))
    W2=np.random.randn(nn_dim,output_dim)/np.sqrt(nn_dim)
    b2=np.zeros((1,output_dim))

    #批量梯度降低算法BSGD
    num_passes=20000 #梯度降低迭代次數
    for i in range(0,num_passes):
        #向前傳播
        z1=X.dot(W1)+b1
        a1=np.tanh(z1)
        z2=a1.dot(W2)+b2
        exp_scores=np.exp(z2)
        probs=exp_scores/np.sum(exp_scores,axis=1,keepdims=True)

        #向後傳播算法
        delta3=probs
        delta3[range(num_indim),y] -= 1
        delta2=delta3.dot(W2.T)*(1-np.power(a1,2))
        dW2=(a1.T).dot(delta3)
        db2=np.sum(delta3,axis=0,keepdims=True)
        dW1=np.dot(X.T,delta2)
        db1=np.sum(delta2,axis=0)

        dW1 += reg_lambda * W1
        dW2 += reg_lambda * W2

        #更新權重
        W1 += -epsilon * dW1
        b1 += -epsilon * db1
        W2 += -epsilon * dW2
        b2 += -epsilon * db2

        model={'W1':W1,'b1':b1,'W2':W2,'b2':b2}

        if i%1000==0:
            print("Loss after iteration %i:%f",i,calculate_loss(model,X,y))

    return model


#隨機產生的數據
np.random.seed(0)
X,y=datasets.make_moons(300,noise=0.25)

plt.scatter(X[:,0],X[:,1],s=50,c=y,cmap=plt.cm.Vega20c,edgecolors="Black")
plt.title('Medical data')
plt.show()

hidden_3_model=ANN_model(X,y,3)
plot_boundary(lambda x:predict(hidden_3_model,x),X,y)
plt.title("Hidden Layer size 3")