在人工智能領域,有一個方法叫機器學習。在機器學習這個方法裏,有一類算法叫神經網絡。神經網絡以下圖所示:python
上圖中每一個圓圈都是一個神經元,每條線表示神經元之間的鏈接。咱們能夠看到,上面的神經元被分紅了多層,層與層之間的神經元有鏈接,而層內之間的神經元沒有鏈接。最左邊的層叫作輸入層,這層負責接收輸入數據;最右邊的層叫輸出層,咱們能夠從這層獲取神經網絡輸出數據。輸入層和輸出層之間的層叫作隱藏層。git
隱藏層比較多(大於2)的神經網絡叫作深度神經網絡。而深度學習,就是使用深層架構(好比,深度神經網絡)的機器學習方法。程序員
那麼深層網絡和淺層網絡相比有什麼優點呢?簡單來講深層網絡可以表達力更強。事實上,一個僅有一個隱藏層的神經網絡就能擬合任何一個函數,可是它須要不少不少的神經元。而深層網絡用少得多的神經元就能擬合一樣的函數。也就是爲了擬合一個函數,要麼使用一個淺而寬的網絡,要麼使用一個深而窄的網絡。然後者每每更節約資源。github
深層網絡也有劣勢,就是它不太容易訓練。簡單的說,你須要大量的數據,不少的技巧才能訓練好一個深層網絡。這是個手藝活。算法
看到這裏,若是你仍是一頭霧水,那也是很正常的。爲了理解神經網絡,咱們應該先理解神經網絡的組成單元——神經元。神經元也叫作感知器。感知器算法在上個世紀50-70年代很流行,也成功解決了不少問題。而且,感知器算法也是很是簡單的。編程
下圖是一個感知器:網絡
能夠看到,一個感知器有以下組成部分:架構
輸入權值 一個感知器能夠接收多個輸入,每一個輸入上有一個權值,此外還有一個偏置項,就是上圖中的。python2.7
激活函數 感知器的激活函數能夠有不少選擇,好比咱們能夠選擇下面這個階躍函數來做爲激活函數:機器學習
若是看完上面的公式一會兒就暈了,沒關係,咱們用一個簡單的例子來幫助理解。
and
函數咱們設計一個感知器,讓它來實現and
運算。程序員都知道,and
是一個二元函數(帶有兩個參數和),下面是它的真值表:
0 | 0 | 0 |
0 | 1 | 0 |
1 | 0 | 0 |
1 | 1 | 1 |
爲了計算方便,咱們用0表示false,用1表示true。這沒什麼難理解的,對於C語言程序員來講,這是天經地義的。
咱們令,而激活函數就是前面寫出來的階躍函數,這時,感知器就至關於and
函數。不明白?咱們驗算一下:
輸入上面真值表的第一行,即,那麼根據公式(1),計算輸出:
也就是當都爲0的時候,爲0,這就是真值表的第一行。讀者能夠自行驗證上述真值表的第2、3、四行。
or
函數一樣,咱們也能夠用感知器來實現or
運算。僅僅須要把偏置項的值設置爲-0.3就能夠了。咱們驗算一下,下面是or
運算的真值表:
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 1 |
咱們來驗算第二行,這時的輸入是,帶入公式(1):
也就是當時,爲1,即or
真值表第二行。讀者能夠自行驗證其它行。
事實上,感知器不只僅能實現簡單的布爾運算。它能夠擬合任何的線性函數,任何線性分類或線性迴歸問題均可以用感知器來解決。前面的布爾運算能夠看做是二分類問題,即給定一個輸入,輸出0(屬於分類0)或1(屬於分類1)。以下面所示,and
運算是一個線性分類問題,便可以用一條直線把分類0(false,紅叉表示)和分類1(true,綠點表示)分開。
然而,感知器卻不能實現異或運算,以下圖所示,異或運算不是線性的,你沒法用一條直線把分類0和分類1分開。
如今,你可能困惑前面的權重項和偏置項的值是如何得到的呢?這就要用到感知器訓練算法:將權重項和偏置項初始化爲0,而後,利用下面的感知器規則迭代的修改和,直到訓練完成。
其中:
是與輸入對應的權重項,是偏置項。事實上,能夠把看做是值永遠爲1的輸入所對應的權重。是訓練樣本的實際值,通常稱之爲label。而是感知器的輸出值,它是根據公式(1)計算得出。是一個稱爲學習速率的常數,其做用是控制每一步調整權的幅度。
每次從訓練數據中取出一個樣本的輸入向量,使用感知器計算其輸出,再根據上面的規則來調整權重。每處理一個樣本就調整一次權重。通過多輪迭代後(即所有的訓練數據被反覆處理多輪),就能夠訓練出感知器的權重,使之實現目標函數。
完整代碼請參考GitHub: https://github.com/hanbt/learn_dl/blob/master/perceptron.py (python2.7)
對於程序員來講,沒有什麼比親自動手實現學得更快了,並且,不少時候一行代碼抵得上千言萬語。接下來咱們就將實現一個感知器。
下面是一些說明:
下面是感知器類的實現,很是簡單。去掉註釋只有27行,並且還包括爲了美觀(每行不超過60個字符)而增長的不少換行。
class Perceptron(object): def __init__(self, input_num, activator): ''' 初始化感知器,設置輸入參數的個數,以及激活函數。 激活函數的類型爲double -> double ''' self.activator = activator # 權重向量初始化爲0 self.weights = [0.0 for _ in range(input_num)] # 偏置項初始化爲0 self.bias = 0.0 def __str__(self): ''' 打印學習到的權重、偏置項 ''' return 'weights\t:%s\nbias\t:%f\n' % (self.weights, self.bias) def predict(self, input_vec): ''' 輸入向量,輸出感知器的計算結果 ''' # 把input_vec[x1,x2,x3...]和weights[w1,w2,w3,...]打包在一塊兒 # 變成[(x1,w1),(x2,w2),(x3,w3),...] # 而後利用map函數計算[x1*w1, x2*w2, x3*w3] # 最後利用reduce求和 return self.activator( reduce(lambda a, b: a + b, map(lambda (x, w): x * w, zip(input_vec, self.weights)) , 0.0) + self.bias) def train(self, input_vecs, labels, iteration, rate): ''' 輸入訓練數據:一組向量、與每一個向量對應的label;以及訓練輪數、學習率 ''' for i in range(iteration): self._one_iteration(input_vecs, labels, rate) def _one_iteration(self, input_vecs, labels, rate): ''' 一次迭代,把全部的訓練數據過一遍 ''' # 把輸入和輸出打包在一塊兒,成爲樣本的列表[(input_vec, label), ...] # 而每一個訓練樣本是(input_vec, label) samples = zip(input_vecs, labels) # 對每一個樣本,按照感知器規則更新權重 for (input_vec, label) in samples: # 計算感知器在當前權重下的輸出 output = self.predict(input_vec) # 更新權重 self._update_weights(input_vec, output, label, rate) def _update_weights(self, input_vec, output, label, rate): ''' 按照感知器規則更新權重 ''' # 把input_vec[x1,x2,x3,...]和weights[w1,w2,w3,...]打包在一塊兒 # 變成[(x1,w1),(x2,w2),(x3,w3),...] # 而後利用感知器規則更新權重 delta = label - output self.weights = map( lambda (x, w): w + rate * delta * x, zip(input_vec, self.weights)) # 更新bias self.bias += rate * delta
接下來,咱們利用這個感知器類去實現and
函數。
def f(x): ''' 定義激活函數f ''' return 1 if x > 0 else 0 def get_training_dataset(): ''' 基於and真值表構建訓練數據 ''' # 構建訓練數據 # 輸入向量列表 input_vecs = [[1,1], [0,0], [1,0], [0,1]] # 指望的輸出列表,注意要與輸入一一對應 # [1,1] -> 1, [0,0] -> 0, [1,0] -> 0, [0,1] -> 0 labels = [1, 0, 0, 0] return input_vecs, labels def train_and_perceptron(): ''' 使用and真值表訓練感知器 ''' # 建立感知器,輸入參數個數爲2(由於and是二元函數),激活函數爲f p = Perceptron(2, f) # 訓練,迭代10輪, 學習速率爲0.1 input_vecs, labels = get_training_dataset() p.train(input_vecs, labels, 10, 0.1) #返回訓練好的感知器 return p if __name__ == '__main__': # 訓練and感知器 and_perception = train_and_perceptron() # 打印訓練得到的權重 print and_perception # 測試 print '1 and 1 = %d' % and_perception.predict([1, 1]) print '0 and 0 = %d' % and_perception.predict([0, 0]) print '1 and 0 = %d' % and_perception.predict([1, 0]) print '0 and 1 = %d' % and_perception.predict([0, 1])
將上述程序保存爲perceptron.py文件,經過命令行執行這個程序,其運行結果爲:
神奇吧!感知器居然徹底實現了and
函數。讀者能夠嘗試一下利用感知器實現其它函數。
終於看(寫)到小結了...,你們都累了。對於零基礎的你來講,走到這裏應該已經很燒腦了吧。不要緊,休息一下。值得高興的是,你終於已經走出了深度學習入門的第一步,這是巨大的進步;壞消息是,這僅僅是最簡單的部分,後面還有無數艱難險阻等着你。不過,你學的困難每每意味着別人學的也困難,掌握一門高門檻的技藝,進可餬口退可裝逼,是很值得的。
下一篇文章,咱們將討論另一種感知器:線性單元,並由此引出一種多是最最重要的優化算法:梯度降低算法。