最近在github上看到一個頗有趣的項目,經過文本訓練可讓計算機寫出特定風格的文章,有人就專門寫了一個小項目生成汪峯風格的歌詞。看完後有一些本身的小想法,也想作一個玩兒一玩兒。用到的原理是深度學習裏的循環神經網絡,無奈理論太艱深,只能從頭開始開始慢慢看,所以產生寫一個項目的想法,把機器學習和深度學習裏關於分類的算法整理一下,按照原理寫一些demo,方便本身也方便其餘人。項目地址:https://github.com/LiuRoy/classfication_demo,目前實現了邏輯迴歸和神經網絡兩種分類算法。html
這是相對比較簡單的一種分類方法,準確率較低,也只適用於線性可分數據,網上有不少關於logistic迴歸的博客和文章,講的也都很是通俗易懂,就不贅述。此處採用隨機梯度降低的方式實現,講解能夠參考《機器學習實戰》第五章logistic迴歸。代碼以下:python
def train(self, num_iteration=150): """隨機梯度上升算法 Args: data (numpy.ndarray): 訓練數據集 labels (numpy.ndarray): 訓練標籤 num_iteration (int): 迭代次數 """ for j in xrange(num_iteration): data_index = range(self.data_num) for i in xrange(self.data_num): # 學習速率 alpha = 0.01 rand_index = int(random.uniform(0, len(data_index))) error = self.label[rand_index] - sigmoid(sum(self.data[rand_index] * self.weights + self.b)) self.weights += alpha * error * self.data[rand_index] self.b += alpha * error del(data_index[rand_index])
效果圖:
git
參考的是這篇文章,若是本身英語比較好,還能夠查看英文文章,裏面有簡單的實現,惟一的缺點就是沒有把原理講明白。關於神經網絡,我的認爲確實不是一兩句就能解釋清楚的,尤爲是網上的博客,要麼只給公式,要麼只給圖,看起來都很是的晦澀,建議你們看一下加州理工的一個公開課,有中文字幕,一個小時的課程絕對比本身花一天查文字資料理解的深入,知道原理以後再來看前面的那篇博客就很輕鬆啦!github
博客裏面實現用的是批量梯度降低(batch gradient descent),代碼:算法
def batch_gradient_descent(self, num_passes=20000): """批量梯度降低訓練模型""" for i in xrange(0, num_passes): # Forward propagation z1 = self.data.dot(self.W1) + self.b1 a1 = np.tanh(z1) z2 = a1.dot(self.W2) + self.b2 exp_scores = np.exp(z2) probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True) # Backpropagation delta3 = probs delta3[range(self.num_examples), self.label] -= 1 dW2 = (a1.T).dot(delta3) db2 = np.sum(delta3, axis=0, keepdims=True) delta2 = delta3.dot(self.W2.T) * (1 - np.power(a1, 2)) dW1 = np.dot(self.data.T, delta2) db1 = np.sum(delta2, axis=0) # Add regularization terms (b1 and b2 don't have regularization terms) dW2 += self.reg_lambda * self.W2 dW1 += self.reg_lambda * self.W1 # Gradient descent parameter update self.W1 += -self.epsilon * dW1 self.b1 += -self.epsilon * db1 self.W2 += -self.epsilon * dW2 self.b2 += -self.epsilon * db2
效果圖:網絡
注意:強烈懷疑文中的後向傳播公式給錯了,由於和代碼裏的delta2 = delta3.dot(self.W2.T) * (1 - np.power(a1, 2))對不上。dom
考慮到logistic迴歸能夠用隨機梯度降低,並且公開課裏面也說隨機梯度降低效果更好一些,因此在上面的代碼上本身改動了一下,代碼:機器學習
def stochastic_gradient_descent(self, num_passes=200): """隨機梯度降低訓練模型""" for i in xrange(0, num_passes): data_index = range(self.num_examples) for j in xrange(self.num_examples): rand_index = int(np.random.uniform(0, len(data_index))) x = np.mat(self.data[rand_index]) y = self.label[rand_index] # Forward propagation z1 = x.dot(self.W1) + self.b1 a1 = np.tanh(z1) z2 = a1.dot(self.W2) + self.b2 exp_scores = np.exp(z2) probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True) # Backpropagation delta3 = probs if y: delta3[0, 0] -= 1 else: delta3[0, 1] -= 1 dW2 = (a1.T).dot(delta3) db2 = np.sum(delta3, axis=0, keepdims=True) va = delta3.dot(self.W2.T) vb = 1 - np.power(a1, 2) delta2 = np.mat(np.array(va) * np.array(vb)) dW1 = x.T.dot(delta2) db1 = np.sum(delta2, axis=0) # Add regularization terms (b1 and b2 don't have regularization terms) dW2 += self.reg_lambda * self.W2 dW1 += self.reg_lambda * self.W1 # Gradient descent parameter update self.W1 += -self.epsilon * dW1 self.b1 += -self.epsilon * db1 self.W2 += -self.epsilon * dW2 self.b2 += -self.epsilon * db2 del(data_index[rand_index])
多是我寫的方式很差,雖然能夠獲得正確的結果,可是性能上卻比不上BGD,但願你們能指出問題所在,運行效果圖:
性能
SVM我還在看,裏面的公式推導能把人繞死,稍晚一點寫好合入,數學很差就是坑啊😭。至於決策樹分類,貝葉斯分類等比較簡單的,沒有數學功底的人實現起來也很容易,就不放進去了。學習