本文主要內容包括: (1) 介紹神經網絡基本原理,(2) AForge.NET實現前向神經網絡的方法,(3) Matlab實現前向神經網絡的方法 。html
第0節、引例 算法
本文以Fisher的Iris數據集做爲神經網絡程序的測試數據集。Iris數據集能夠在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。這裏簡要介紹一下Iris數據集:網絡
有一批Iris花,已知這批Iris花可分爲3個品種,現須要對其進行分類。不一樣品種的Iris花的花萼長度、花萼寬度、花瓣長度、花瓣寬度會有差別。咱們現有一批已知品種的Iris花的花萼長度、花萼寬度、花瓣長度、花瓣寬度的數據。架構
一種解決方法是用已有的數據訓練一個神經網絡用做分類器。機器學習
若是你只想用C#或Matlab快速實現神經網絡來解決你手頭上的問題,或者已經瞭解神經網絡基本原理,請直接跳到第二節——神經網絡實現。函數
第一節、神經網絡基本原理 post
1. 人工神經元( Artificial Neuron )模型 性能
人工神經元是神經網絡的基本元素,其原理能夠用下圖表示:學習
圖1. 人工神經元模型測試
圖中x1~xn是從其餘神經元傳來的輸入信號,wij表示表示從神經元j到神經元i的鏈接權值,θ表示一個閾值 ( threshold ),或稱爲偏置( bias )。則神經元i的輸出與輸入的關係表示爲:
圖中 yi表示神經元i的輸出,函數f稱爲激活函數 ( Activation Function )或轉移函數 ( Transfer Function ) ,net稱爲淨激活(net activation)。若將閾值當作是神經元i的一個輸入x0的權重wi0,則上面的式子能夠簡化爲:
若用X表示輸入向量,用W表示權重向量,即:
X = [ x0 , x1 , x2 , ....... , xn ]
則神經元的輸出能夠表示爲向量相乘的形式:
若神經元的淨激活net爲正,稱該神經元處於激活狀態或興奮狀態(fire),若淨激活net爲負,則稱神經元處於抑制狀態。
圖1中的這種「閾值加權和」的神經元模型稱爲M-P模型 ( McCulloch-Pitts Model ),也稱爲神經網絡的一個處理單元( PE, Processing Element )。
2. 經常使用激活函數
激活函數的選擇是構建神經網絡過程當中的重要環節,下面簡要介紹經常使用的激活函數。
(1) 線性函數 ( Liner Function )
(2) 斜面函數 ( Ramp Function )
(3) 閾值函數 ( Threshold Function )
以上3個激活函數都屬於線性函數,下面介紹兩個經常使用的非線性激活函數。
(4) S形函數 ( Sigmoid Function )
該函數的導函數:
(5) 雙極S形函數
該函數的導函數:
S形函數與雙極S形函數的圖像以下:
圖3. S形函數與雙極S形函數圖像
雙極S形函數與S形函數主要區別在於函數的值域,雙極S形函數值域是(-1,1),而S形函數值域是(0,1)。
因爲S形函數與雙極S形函數都是可導的(導函數是連續函數),所以適合用在BP神經網絡中。(BP算法要求激活函數可導)
3. 神經網絡模型
神經網絡是由大量的神經元互聯而構成的網絡。根據網絡中神經元的互聯方式,常見網絡結構主要能夠分爲下面3類:
(1) 前饋神經網絡 ( Feedforward Neural Networks )
前饋網絡也稱前向網絡。這種網絡只在訓練過程會有反饋信號,而在分類過程當中數據只能向前傳送,直到到達輸出層,層間沒有向後的反饋信號,所以被稱爲前饋網絡。感知機( perceptron)與BP神經網絡就屬於前饋網絡。
圖4 中是一個3層的前饋神經網絡,其中第一層是輸入單元,第二層稱爲隱含層,第三層稱爲輸出層(輸入單元不是神經元,所以圖中有2層神經元)。
圖4. 前饋神經網絡
對於一個3層的前饋神經網絡N,若用X表示網絡的輸入向量,W1~W3表示網絡各層的鏈接權向量,F1~F3表示神經網絡3層的激活函數。
那麼神經網絡的第一層神經元的輸出爲:
O1 = F1( XW1 )
第二層的輸出爲:
O2 = F2 ( F1( XW1 ) W2 )
輸出層的輸出爲:
O3 = F3( F2 ( F1( XW1 ) W2 ) W3 )
若激活函數F1~F3都選用線性函數,那麼神經網絡的輸出O3將是輸入X的線性函數。所以,若要作高次函數的逼近就應該選用適當的非線性函數做爲激活函數。
(2) 反饋神經網絡 ( Feedback Neural Networks )
反饋型神經網絡是一種從輸出到輸入具備反饋鏈接的神經網絡,其結構比前饋網絡要複雜得多。典型的反饋型神經網絡有:Elman網絡和Hopfield網絡。
圖5. 反饋神經網絡
(3) 自組織網絡 ( SOM ,Self-Organizing Neural Networks )
自組織神經網絡是一種無導師學習網絡。它經過自動尋找樣本中的內在規律和本質屬性,自組織、自適應地改變網絡參數與結構。
圖6. 自組織網絡
4. 神經網絡工做方式
神經網絡運做過程分爲學習和工做兩種狀態。
(1)神經網絡的學習狀態
網絡的學習主要是指使用學習算法來調整神經元間的聯接權,使得網絡輸出更符合實際。學習算法分爲有導師學習( Supervised Learning )與無導師學習( Unsupervised Learning )兩類。
有導師學習算法將一組訓練集 ( training set )送入網絡,根據網絡的實際輸出與指望輸出間的差異來調整鏈接權。有導師學習算法的主要步驟包括:
1) 從樣本集合中取一個樣本(Ai,Bi);
2) 計算網絡的實際輸出O;
3) 求D=Bi-O;
4) 根據D調整權矩陣W;
5) 對每一個樣本重複上述過程,直到對整個樣本集來講,偏差不超過規定範圍。
BP算法就是一種出色的有導師學習算法。
無導師學習抽取樣本集合中蘊含的統計特性,並以神經元之間的聯接權的形式存於網絡中。
Hebb學習律是一種經典的無導師學習算法。
(2) 神經網絡的工做狀態
神經元間的鏈接權不變,神經網絡做爲分類器、預測器等使用。
下面簡要介紹一下Hebb學習率與Delta學習規則 。
(3) 無導師學習算法:Hebb學習率
Hebb算法核心思想是,當兩個神經元同時處於激發狀態時二者間的鏈接權會被增強,不然被減弱。
爲了理解Hebb算法,有必要簡單介紹一下條件反射實驗。巴甫洛夫的條件反射實驗:每次給狗餵食前都先響鈴,時間一長,狗就會將鈴聲和食物聯繫起來。之後若是響鈴可是不給食物,狗也會流口水。
圖7. 巴甫洛夫的條件反射實驗
受該實驗的啓發,Hebb的理論認爲在同一時間被激發的神經元間的聯繫會被強化。好比,鈴聲響時一個神經元被激發,在同一時間食物的出現會激發附近的另外一個神經元,那麼這兩個神經元間的聯繫就會強化,從而記住這兩個事物之間存在着聯繫。相反,若是兩個神經元老是不能同步激發,那麼它們間的聯繫將會愈來愈弱。
Hebb學習律可表示爲:
其中wij表示神經元j到神經元i的鏈接權,yi與yj爲兩個神經元的輸出,a是表示學習速度的常數。若yi與yj同時被激活,即yi與yj同時爲正,那麼Wij將增大。若yi被激活,而yj處於抑制狀態,即yi爲正yj爲負,那麼Wij將變小。
(4) 有導師學習算法:Delta學習規則
Delta學習規則是一種簡單的有導師學習算法,該算法根據神經元的實際輸出與指望輸出差異來調整鏈接權,其數學表示以下:
其中Wij表示神經元j到神經元i的鏈接權,di是神經元i的指望輸出,yi是神經元i的實際輸出,xj表示神經元j狀態,若神經元j處於激活態則xj爲1,若處於抑制狀態則xj爲0或-1(根據激活函數而定)。a是表示學習速度的常數。假設xi爲1,若di比yi大,那麼Wij將增大,若di比yi小,那麼Wij將變小。
Delta規則簡單講來就是:若神經元實際輸出比指望輸出大,則減少全部輸入爲正的鏈接的權重,增大全部輸入爲負的鏈接的權重。反之,若神經元實際輸出比指望輸出小,則增大全部輸入爲正的鏈接的權重,減少全部輸入爲負的鏈接的權重。這個增大或減少的幅度就根據上面的式子來計算。
(5)有導師學習算法:BP算法
採用BP學習算法的前饋型神經網絡一般被稱爲BP網絡。
圖8. 三層BP神經網絡結構
BP網絡具備很強的非線性映射能力,一個3層BP神經網絡可以實現對任意非線性函數進行逼近(根據Kolrnogorov定理)。一個典型的3層BP神經網絡模型如圖7所示。
BP網絡的學習算法佔篇幅較大,我打算在下一篇文章中介紹。
第二節、神經網絡實現
1. 數據預處理
在訓練神經網絡前通常須要對數據進行預處理,一種重要的預處理手段是歸一化處理。下面簡要介紹歸一化處理的原理與方法。
(1) 什麼是歸一化?
數據歸一化,就是將數據映射到[0,1]或[-1,1]區間或更小的區間,好比(0.1,0.9) 。
(2) 爲何要歸一化處理?
<1>輸入數據的單位不同,有些數據的範圍可能特別大,致使的結果是神經網絡收斂慢、訓練時間長。
<2>數據範圍大的輸入在模式分類中的做用可能會偏大,而數據範圍小的輸入做用就可能會偏小。
<3>因爲神經網絡輸出層的激活函數的值域是有限制的,所以須要將網絡訓練的目標數據映射到激活函數的值域。例如神經網絡的輸出層若採用S形激活函數,因爲S形函數的值域限制在(0,1),也就是說神經網絡的輸出只能限制在(0,1),因此訓練數據的輸出就要歸一化到[0,1]區間。
<4>S形激活函數在(0,1)區間之外區域很平緩,區分度過小。例如S形函數f(X)在參數a=1時,f(100)與f(5)只相差0.0067。
(3) 歸一化算法
一種簡單而快速的歸一化算法是線性轉換算法。線性轉換算法常見有兩種形式:
<1>
y = ( x - min )/( max - min )
其中min爲x的最小值,max爲x的最大值,輸入向量爲x,歸一化後的輸出向量爲y 。上式將數據歸一化到 [ 0 , 1 ]區間,當激活函數採用S形函數時(值域爲(0,1))時這條式子適用。
<2>
y = 2 * ( x - min ) / ( max - min ) - 1
這條公式將數據歸一化到 [ -1 , 1 ] 區間。當激活函數採用雙極S形函數(值域爲(-1,1))時這條式子適用。
(4) Matlab數據歸一化處理函數
Matlab中歸一化處理數據能夠採用premnmx , postmnmx , tramnmx 這3個函數。
<1> premnmx
語法:[pn,minp,maxp,tn,mint,maxt] = premnmx(p,t)
參數:
pn: p矩陣按行歸一化後的矩陣
minp,maxp:p矩陣每一行的最小值,最大值
tn:t矩陣按行歸一化後的矩陣
mint,maxt:t矩陣每一行的最小值,最大值
做用:將矩陣p,t歸一化到[-1,1] ,主要用於歸一化處理訓練數據集。
<2> tramnmx
語法:[pn] = tramnmx(p,minp,maxp)
參數:
minp,maxp:premnmx函數計算的矩陣的最小,最大值
pn:歸一化後的矩陣
做用:主要用於歸一化處理待分類的輸入數據。
<3> postmnmx
語法: [p,t] = postmnmx(pn,minp,maxp,tn,mint,maxt)
參數:
minp,maxp:premnmx函數計算的p矩陣每行的最小值,最大值
mint,maxt:premnmx函數計算的t矩陣每行的最小值,最大值
做用:將矩陣pn,tn映射回歸一化處理前的範圍。postmnmx函數主要用於將神經網絡的輸出結果映射回歸一化前的數據範圍。
2. 使用Matlab實現神經網絡
使用Matlab創建前饋神經網絡主要會使用到下面3個函數:
newff :前饋網絡建立函數
train:訓練一個神經網絡
sim :使用網絡進行仿真
下面簡要介紹這3個函數的用法。
(1) newff函數
<1>newff函數語法
newff函數參數列表有不少的可選參數,具體能夠參考Matlab的幫助文檔,這裏介紹newff函數的一種簡單的形式。
語法:net = newff ( A, B, {C} ,‘trainFun’)
參數:
A:一個n×2的矩陣,第i行元素爲輸入信號xi的最小值和最大值;
B:一個k維行向量,其元素爲網絡中各層節點數;
C:一個k維字符串行向量,每一份量爲對應層神經元的激活函數;
trainFun :爲學習規則採用的訓練算法。
<2>經常使用的激活函數
經常使用的激活函數有:
a) 線性函數 (Linear transfer function)
f(x) = x
該函數的字符串爲’purelin’。
b) 對數S形轉移函數( Logarithmic sigmoid transfer function )
該函數的字符串爲’logsig’。
c) 雙曲正切S形函數 (Hyperbolic tangent sigmoid transfer function )
也就是上面所提到的雙極S形函數。
該函數的字符串爲’ tansig’。
Matlab的安裝目錄下的toolbox\nnet\nnet\nntransfer子目錄中有全部激活函數的定義說明。
<3>常見的訓練函數
常見的訓練函數有:
traingd :梯度降低BP訓練函數(Gradient descent backpropagation)
traingdx :梯度降低自適應學習率訓練函數
<4>網絡配置參數
一些重要的網絡配置參數以下:
net.trainparam.goal :神經網絡訓練的目標偏差
net.trainparam.show : 顯示中間結果的週期
net.trainparam.epochs :最大迭代次數
net.trainParam.lr : 學習率
(2) train函數
網絡訓練學習函數。
語法:[ net, tr, Y1, E ] = train( net, X, Y )
參數:
X:網絡實際輸入
Y:網絡應有輸出
tr:訓練跟蹤信息
Y1:網絡實際輸出
E:偏差矩陣
(3) sim函數
語法:Y=sim(net,X)
參數:
net:網絡
X:輸入給網絡的K×N矩陣,其中K爲網絡輸入個數,N爲數據樣本數
Y:輸出矩陣Q×N,其中Q爲網絡輸出個數
(4) Matlab BP網絡實例
我將Iris數據集分爲2組,每組各75個樣本,每組中每種花各有25個樣本。其中一組做爲以上程序的訓練樣本,另一組做爲檢驗樣本。爲了方便訓練,將3類花分別編號爲1,2,3 。
使用這些數據訓練一個4輸入(分別對應4個特徵),3輸出(分別對應該樣本屬於某一品種的可能性大小)的前向網絡。
Matlab程序以下:
%讀取訓練數據 [f1,f2,f3,f4,class] = textread('trainData.txt' , '%f%f%f%f%f',150); %特徵值歸一化 [input,minI,maxI] = premnmx( [f1 , f2 , f3 , f4 ]') ; %構造輸出矩陣 s = length( class) ; output = zeros( s , 3 ) ; for i = 1 : s output( i , class( i ) ) = 1 ; end %建立神經網絡 net = newff( minmax(input) , [10 3] , { 'logsig' 'purelin' } , 'traingdx' ) ; %設置訓練參數 net.trainparam.show = 50 ; net.trainparam.epochs = 500 ; net.trainparam.goal = 0.01 ; net.trainParam.lr = 0.01 ; %開始訓練 net = train( net, input , output' ) ; %讀取測試數據 [t1 t2 t3 t4 c] = textread('testData.txt' , '%f%f%f%f%f',150); %測試數據歸一化 testInput = tramnmx ( [t1,t2,t3,t4]' , minI, maxI ) ; %仿真 Y = sim( net , testInput ) %統計識別正確率 [s1 , s2] = size( Y ) ; hitNum = 0 ; for i = 1 : s2 [m , Index] = max( Y( : , i ) ) ; if( Index == c(i) ) hitNum = hitNum + 1 ; end end sprintf('識別率是 %3.3f%%',100 * hitNum / s2 )
以上程序的識別率穩定在95%左右,訓練100次左右達到收斂,訓練曲線以下圖所示:
圖9. 訓練性能表現
(5)參數設置對神經網絡性能的影響
我在實驗中經過調整隱含層節點數,選擇不經過的激活函數,設定不一樣的學習率,
<1>隱含層節點個數
隱含層節點的個數對於識別率的影響並不大,可是節點個數過多會增長運算量,使得訓練較慢。
<2>激活函數的選擇
激活函數不管對於識別率或收斂速度都有顯著的影響。在逼近高次曲線時,S形函數精度比線性函數要高得多,但計算量也要大得多。
<3>學習率的選擇
學習率影響着網絡收斂的速度,以及網絡可否收斂。學習率設置偏小能夠保證網絡收斂,可是收斂較慢。相反,學習率設置偏大則有可能使網絡訓練不收斂,影響識別效果。
3. 使用AForge.NET實現神經網絡
(1) AForge.NET簡介
AForge.NET是一個C#實現的面向人工智能、計算機視覺等領域的開源架構。AForge.NET源代碼下的Neuro目錄包含一個神經網絡的類庫。
AForge.NET主頁:http://www.aforgenet.com/
AForge.NET代碼下載:http://code.google.com/p/aforge/
Aforge.Neuro工程的類圖以下:
圖10. AForge.Neuro類庫類圖
下面介紹圖9中的幾個基本的類:
Neuron — 神經元的抽象基類
Layer — 層的抽象基類,由多個神經元組成
Network —神經網絡的抽象基類,由多個層(Layer)組成
IActivationFunction - 激活函數(activation function)的接口
IUnsupervisedLearning - 無導師學習(unsupervised learning)算法的接口ISupervisedLearning - 有導師學習(supervised learning)算法的接口
(2)使用Aforge創建BP神經網絡
使用AForge創建BP神經網絡會用到下面的幾個類:
<1> SigmoidFunction : S形神經網絡
構造函數:public SigmoidFunction( double alpha )
參數alpha決定S形函數的陡峭程度。
<2> ActivationNetwork :神經網絡類
構造函數:
public ActivationNetwork( IActivationFunction function, int inputsCount, params int[] neuronsCount )
: base( inputsCount, neuronsCount.Length )
public virtual double[] Compute( double[] input )
參數意義:
inputsCount:輸入個數
neuronsCount :表示各層神經元個數
<3> BackPropagationLearning:BP學習算法
構造函數:
public BackPropagationLearning( ActivationNetwork network )
參數意義:
network :要訓練的神經網絡對象
BackPropagationLearning類須要用戶設置的屬性有下面2個:
learningRate :學習率
momentum :衝量因子
下面給出一個用AForge構建BP網絡的代碼。
改程序對Iris 數據進行分類,識別率可達97%左右 。
文章來自:http://www.cnblogs.com/heaad/
轉載:http://www.cnblogs.com/heaad/archive/2011/03/07/1976443.html