1、概論
一、簡述模式的概念和它的直觀特性,解釋什麼是模式識別,同時繪出模式識別系統的組成框圖,並說明各部分的主要功能特性。
對於存在於時間和空間中,可觀察的物體,若是咱們能夠區分它們是否相同或類似,均可以稱之爲「模式」(或「模式類」)。web
模式所指的不是事物自己,而是從事物中得到的信息。所以,模式經常表現爲具備時間和空間分佈的信息。算法
模式的直觀特性包括:可觀察性,可區分性,類似性。bootstrap
模式識別就是對模式的區分和認識,把對象根據其特徵歸到若干類別中的適當一類。網絡
模式識別系統的組成框圖以下圖所示。一個模式識別系統一般包括:原始數據獲取與預處理、特徵提取與選擇、分類或聚類、後處理四個步驟。app
監督模式識別過程可概括爲五個基本步驟:分析問題、原始特徵獲取、特徵提取與選擇、分類器設計、分類決策。框架
非監督模式識別過程可概括爲五個基本步驟:分析問題、原始特徵獲取、特徵提取與選擇、聚類分析、結果解釋。機器學習
每部分說明略。svg
二、簡述模式識別系統中模式處理的完整過程,和一個分類器的設計過程。
模式處理的完整過程可概括爲:數據/信息獲取與預處理、特徵提取與選擇、分類或聚類、後處理四個步驟。函數
在統計決策中,分類器設計的過程包括:樣本(類條件)機率密度形式假定、參數或非參數密度估計、肯定準則函數、肯定決策規則。性能
在基於樣本直接設計的分類器中,分類器設計過程包括:肯定判別函數類型(線性、二次、決策樹、神經網絡等)、肯定學習目標(準則函數)、肯定優化算法,在訓練數據上學習分類器、在測試數據上評價分類器、解釋分析。
三、給出機器學習問題的形式化表示,並解釋學習機器的推廣能力。
(1)機器學習的形式化表示
已知變量
y
與輸入
x
之間存在必定的未知依賴關係,即存在一個未知的映射
F(x,y)
。
機器學習就是根據
n
個獨立同分布的觀測樣本
(x1,y1),⋯,(xn,yn)
,在一組函數
f(x,ω)
中求一個最優的函數,使預測的指望風險
R(ω)=L(y,f(x,ω))dF(x,y)
最小。
其中
F(x,y)
表示全部可能出現的輸入
x
與輸出
y
的聯合機率模型。
f(x,ω)
被稱爲預測函數集,
ω∈Ω
爲函數的廣義參數,故
f(x,ω)
能夠表示任意函數集。
L(y,f(x,ω))
是使用
f(x,ω)
對
y
進行預測而形成的損失。
簡而言之,機器學習,就是在一組設定的函數集中尋找使指望風險最小的最優函數。
(2)學習機器的推廣能力
模式識別是一種基於數據的機器學習,學習的目的不只是要對訓練樣本正確分類,而是要可以對全部可能樣本都正確分類,這種能力叫作推廣能力。
四、區別於基於模型的模式識別方法(統計決策原理),基於數據的模式識別方法直接從樣本設計分類器。從樣本直接設計分類器,須要肯定哪些基本要素?
須要肯定三個基本要素:① 判別函數類型(函數集),② 學習目標(準則函數),③ 優化算法。
五、給定一組有類別標號(
M
類)的樣本
x1,⋯,xN (xi∈Rd)
。現有兩種特徵提取方法
F1
和
F2
,和兩種分類方法
C1
和
C2
。請設計一個實驗方案,分別比較特徵提取方法和分類方法的性能。寫出詳細實驗過程。
採用 5-fold 交叉驗證來評估
2、統計決策方法
一、簡述多分類問題的最小錯誤率貝葉斯決策過程,並給出相應的最小分類錯誤率。
二、闡述最小風險貝葉斯決策原理和決策步驟,說明在什麼狀況下最小風險決策等價於最小錯誤率決策,並證實之。
(1)決策原理
最小風險貝葉斯決策的目標是,針對決策規則
α(x)
,最小化指望風險:
minαR(α)=∫R(α|x)p(x)dx
.
因爲
R(α|x)
和
p(x)
非負,且
p(x)
已知,與
α
無關,於是最小風險貝葉斯決策就是:
若
R(αi|x)=minj=1,⋯,kR(αj|x)
,則
α=αi
.
其中
R(αi|x)=E[λij|x]=∑cj=1P(ωj|x), i=1,⋯,k
,
λij=λ(αi,ωj)
表示實際爲
ωj
的向量決策爲
αi
的損失,可從事先定義的決策表查得.
(2)決策步驟
① 計算後驗機率:
P(ωj|x)=p(x|ωj)P(ωj)∑ci=1p(x|ωi)P(ωi)
.
② 利用決策表,計算條件風險:
R(αi|x)=∑cj=1λijP(ωj|x)
.
③ 決策:
α=argminiR(αi|x)
.
(3)等價關係
當
λii=0
且
λij=C (i≠j)
,其中
C
爲某一常數時,最小風險貝葉斯決策等價於最小錯誤率貝葉斯決策。
證實:
知足上述條件時,條件風險
R(αi|x)=∑cj=1,j≠iCP(ωj|x)
.
則決策規則
α=argminiR(αi|x)
等價於:
α=argmini∑j≠iCP(ωj|x)=argminiCP(e|x)=argmaxiP(ωi|x)
.
所以,最小風險貝葉斯決策等價於最小錯誤率貝葉斯決策。
三、簡述 Neyman-Pearson 決策原理。
Neyman-Pearson 決策原理是但願在固定一類錯誤率時,使另外一類錯誤率儘量小。
記
P1(e)=∫R2p(x|ω1)dx
和
P2(e)=∫R1p(x|ω2)dx
分別表示第一類錯誤率(假陰性率)和第二類錯誤率(假陽性率),則上述要求可表述爲:
minP1(e)
s.t.P2(e)−ϵ0=0
.
用拉格朗日乘子法,得:
γ=∑R2p(x|ω1)dx+λ[∫R1p(x|ω2)dx−ϵ0]=(1−λϵ0)+∫R1[λp(x|ω2)−p(x|ω1)]dx
.
分別對
λ
和決策邊界
t
求導,可得:
①
λ=p(x|ω1)p(x|ω2)
,②
∫R1p(x|ω2)dx
.
要使
γ
最小,應選擇
R1
使積分項內全爲負值(不然可劃出非負區域使之更小)。所以決策規則是:
若 l(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)} ### \lambda,則
x∈ω1
,不然
x∈ω2
.
(一般
λ
很難求得封閉解,須要用數值方法求解)
四、給出假陽性率、假陰性率、靈敏度
Sn
(sensitivity)、特異度
Sp
(specificity)、第一類錯誤率
α
、第二類錯誤率
β
、漏報、誤報的關係,並給出相應的公式。
假陽性率就是假陽性樣本佔總陰性樣本的比例。
假陰性率就是假陰性樣本佔總陽性樣本的比例。
有:
α
= 假陽性率 = 第一類錯誤率 = 誤報率 =
FPFP+TN
=
P1(e)
=
∫R2p(x|ω1)dx
.
β
= 假陰性率 = 第二類錯誤率 = 漏報率 =
FNFN+TP
=
P2(e)
=
∫R1p(x|ω2)dx
.
其中
ω1,ω2
分別表示陰性和陽性兩個類別。
五、ROC 的全稱是什麼?ROC 曲線的橫軸和縱軸各是什麼?如何根據 ROC 曲線衡量一個方法的性能?給出 ROC 曲線的繪製步驟。
ROC 全稱是 Receiver Operating Characteristic。
ROC 曲線的橫軸是假陽性率,縱軸是假陰性率。
能夠根據 ROC 曲線的曲線下面積 AUC (Area Under Curve) 來衡量一個方法的性能。
對於統計決策方法,每肯定一個似然比閾值就決定了決策的真、假陽性率。所以ROC 曲線繪製步驟爲:
① 在
[0,1]
上均勻採樣
N
個點;
② 以每一個點的值做爲似然比閾值,根據公式
P1(e)=∫R2p(x|ω1)dx
和
P2(e)=∫R1p(x|ω2)dx
計算兩類錯誤率,對應 ROC 上某個點;
③ 把這些點鏈接起來獲得 ROC 曲線。
對於基於樣本直接設計分類器的方法,ROC 曲線繪製步驟相似。只需將似然比閾值改爲歸一化後的分類器得分閾值,把兩類錯誤率的計算公式改爲
FPFP+TN
和
FNFN+TP
便可。
六、設
p(x|ωi)∼N(μi,Σi), i=1,⋯,c
,給出各種別的判別函數和決策面方程並計算錯誤率。同時說明在各種別協方差矩陣相等和不等的狀況下,決策面各是什麼形態。
七、疾病檢查,
ω1
表明正常人,
ω2
表明患病者。假設先驗機率
P(ω1)=0.9
,
P(ω2)=0.1
。現有一被檢查者,觀察值爲
x
,查得
p(x|ω1)=0.2
,
p(x|ω2)=0.4
,同時已知風險損失函數爲
⎡⎣⎢⎢λ11λ21λ12λ22⎤⎦⎥⎥=⎡⎣⎢⎢0160⎤⎦⎥⎥
. 分別基於最小錯誤率和最小貝葉斯進行決策,並給出計算過程。
八、設
d
維隨機變量
x
各份量間相互獨立,且
d
足夠大,試基於中心極限定理估計貝葉斯錯誤率。
九、什麼是統計決策?比較基於模型的方法和基於數據的方法。
統計決策的基本原理就是根據各種特徵的機率模型來估算後驗機率,經過比較後驗機率進行決策。而經過貝葉斯公式,後驗機率的比較能夠轉化爲類條件機率密度的比較。
基於模型的方法是從模型的角度出發,把模式識別問題轉化成了機率模型估計的問題。若是可以很好地創建和估計問題的機率模型,那麼相應的分類決策問題就能被很好地解決。
基於數據的方法不依賴樣本機率分佈的假設,而直接從訓練樣本出發訓練分類器。
3、機率密度函數的估計
一、比較四種方法:參數統計方法、非參數統計方法、前饋神經網絡、支持向量機各有什麼優缺點?
(1)參數統計方法
(2)非參數統計方法
優勢:假設條件少,運算簡單,方法直觀容易理解,可以適應名義尺度和順序尺度等對象。
缺點:方法簡單,檢驗功效差,計算和存儲要求高。
(3)前饋神經網絡
優勢:分類的準確度高,並行分佈處理能力強,分佈存儲及學習能力強,對噪聲神經有較強的魯棒性和容錯能力,能充分逼近複雜的非線性關係,具有聯想記憶的功能等。特別重要的是,神經網絡能夠用來提取特徵,這是許多其餘機器學習方法所不具有的能力(例如使用autoencoder,不標註語料的狀況下,能夠獲得原始數據的降維表示)。
缺點:須要大量的參數,如網絡拓撲結構、權值和閾值的初始值;不能觀察之間的學習過程,輸出結果難以解釋,會影響到結果的可信度和可接受程度;學習時間過長,甚至可能達不到學習的目的。
(4)支持向量機
優勢:能解決小樣本問題,能處理非線性問題,無局部極小值問題,能很好地處理高維數據,泛化能力強。
缺點:對核函數的高維映射解釋能力不強(尤爲是徑向基函數),對缺失數據敏感,難以處理大規模數據,難以解決多分類問題(經常使用一對多、一對1、SVM 決策樹),對非線性問題沒有通用解決方案(有時候很難找到一個合適的核函數)。
注:缺失數據?
這裏說的缺失數據是指缺失某些特徵數據,向量數據不完整。SVM沒有處理缺失值的策略(決策樹有)。而SVM但願樣本在特徵空間中線性可分,因此特徵空間的好壞對SVM的性能很重要。缺失特徵數據將影響訓練結果的好壞。
二、最大似然估計的基本假設是什麼?給出最大似然估計的計算步驟。
三、簡述貝葉斯估計的原理和步驟。
(1)原理
貝葉斯估計把參數估計當作貝葉斯決策問題,要決策的是參數的取值,且是在連續空間裏作決策。
目標函數是最小化給定樣本集
下的條件風險:
θ∗=argminθ̂ R(θ̂ |)=∫Θλ(θ̂ ,θ)p(θ|)dθ
.
取
λ(θ̂ ,θ)=(θ−θ̂ )2
,帶入
R(θ̂ |)
並對
θ̂
求導置零可得:
θ∗=E[θ|]=∫Θθp(θ|)dθ
.
(2)步驟
① 肯定
θ
的先驗分佈:
p(θ)
.
② 計算樣本集的聯合分佈:
p(|θ)=∏Ni=1p(xi|θ)
.
③ 計算
θ
的後驗機率:
p(θ|)=p(|θ)p(θ)∫Θp(|θ)p(θ)dθ
.
④
θ
的貝葉斯估計量是:
θ∗=∫Θθp(θ|)dθ
.
(一般沒必要求得
θ
的估計值,而是直接獲得樣本的機率密度估計
p(x|)=∫Θp(x|θ)p(θ|)dθ
)
四、簡述貝葉斯學習(區別於貝葉斯估計)的原理。
貝葉斯學習即遞推的貝葉斯估計——每次用單個樣本調整分佈,以上一次的
θ
後驗機率做爲這一次
θ
的先驗機率。
記
N=x1,⋯,xN
,將貝葉斯估計結果重寫爲:
θ∗=∫Θθp(θ|N)dθ
.
其中:
p(θ|N)=p(N|θ)p(θ)∫Θp(N|θ)p(θ)dθ
.
由獨立同分布,有:
p(N|θ)=p(xN|θ)p(N−1|θ)
.
因而能夠獲得遞推公式:
p(θ|N)=p(xN|θ)p(θ|N−1 )∫Θp(xN|θ)p(θ|N−1 )dθ
.
注意,分子分母約去了
p(θ)
.
因而隨着樣本的增長,能夠獲得一系列地推的貝葉斯估計:
p(θ)
,
p(θ|x1)
,
⋯
,
p(θ|x1,⋯,xN)
,
⋯
五、設某類樣本整體服從正態分佈
N(μ,Σ)
,參數未知。試基於獨立同分布樣本
x1,⋯,xN
,分別採用最大似然估計和貝葉斯估計獲得
μ
和
Σ
的估計值。
六、貝葉斯估計中,設
θ
被估計爲
θ̂
的風險爲
λ(θ̂ ,θ)
. 最優估計應該使
R=∬λ(θ̂ ,θ)p(x,θ)dθdx=∫R(θ̂ |x)p(x)dx
最小化。其中
R(θ̂ |x)=λ(θ̂ ,θ)p(θ|x)
。證實當
λ(θ̂ ,θ)=(θ̂ −θ)2
時,
θ̂ =E[θ|x]=∫θp(θ|x)dθ
.
見第 3 題的答案。
七、基於公式
p̂ (x)=kNV
,比較三種非參數估計方法:直方圖方法、
kN
近鄰算法與 Parzen 窗法的區別與優缺點。
八、給定樣本
x1,⋯,xN
,窗函數
ϕ(x)
和窗寬
hN
,寫出機率密度函數
p(x)
的 Parzen 窗估計公式
p̂ N(x)
。若一維空間中
p(x)∼N(μ,σ2)
,
ϕ(x)∼N(0,1)
,證實
E[p̂ (x)]∼N(μ,σ2+h2N)
。
4、線性分類器
一、線性分類器的設計原理是什麼?與統計決策和非線性分類器相比,有哪些優缺點?闡述線性判別函數的基本概念。
二、簡述 Fisher 線性判別分析的原理,並給出主要計算步驟和分類決策規則。
三、證實:在正態等協方差矩陣條件下,Fisher 線性判別等價於貝葉斯判別函數。
貝葉斯判別:
決策面方程爲
P(ω1|x)=P(ω2|x)
,即:
lnP(x|ω1)P(x|ω2)=lnP(ω2)P(ω1)
.
當
p(x|ωi)
服從正態分佈時,可整理得決策面方程爲:
−12[(x−μ1)TΣ−11(x−μ1)−(x−μ2)TΣ−12(x−μ2)]−12ln|Σ1||Σ2|=lnP(ω2)P(ω1)
.
當
Σ1=Σ2
時,
x
的二次項被抵消,決策面變爲線性方程:
[Σ−1(μ1−μ2)]x+[12(μ1+μ2)TΣ−1(μ1−μ2)−12lnP(ω2)ω1]=0
.
分類器是線性函數
g(x)=wTx+ω0
,其中:
w=Σ−1(μ1−μ2)
,
ω0=−12(μ1+μ2)TΣ−1(μ1−μ2)−12lnP(ω2)ω1
.
Fisher 線性判別分析:
準則函數爲
maxwJF(w)=Sb~Sw~=wTSbwwTSww
.
其中
Sb=(m1−m2)(m1−m2)T
,
Sw=∑i=1,2∑xj∈i(xj−mi)(xj−mi)T
.
咱們只關係
w
的方向,於是可固定
w
的尺度爲知足
wTSWw=c
,採用拉格朗日乘子法可轉化爲無約束極值問題:
L(w,λ)=wTSbw−λ(wTSw−c)
.
極值處知足導數爲零,整理可得
S−1wSbw\*=λw\*
.
把
Sb=(m1−m2)(m1−m2)T
帶入,得
λw\*S−1w=(m1−m2)(m1−m2)Tw∗
.
注意到
(m1−m2)Tw\*
是常數項,不影響
w\*
的方向,而咱們只關心
w\*
的方向,因而可取:
w∗=S−1w(m1−m2)
.
閾值一般採用:
ω0=−12(m̃ 1+m̃ 2)
或者
ω0=−m̃
.
比較:
注意到
Si=(n−1)Σi
,當
Σ1=Σ2
時,顯然有:
wF=S−1w(m1−m2)∝wB=Σ−1(μ1−μ2)
.
所以貝葉斯決策的超平面方向與 Fisher 線性判別分析的方向是相同的。
(此外,注意到,當先驗機率相同時,兩者的分類器閾值也是相同的)
四、試設計一個 c 類 Fisher 判別分析方法。
引導:
在兩類 Fisher 判別分析中,將類內散度矩陣
Sw
, 類間散度矩陣
Sb
和總體散度矩陣
St
寫出以下:
Sw=∑2i=1∑Njj=1(xj−mi)(xj−mi)T
.
Sb=(m1−m2)(m1−m2)T
.
St=∑Ni=1(xi−m)(xi−m)T
.
咱們注意到兩點:
①
Sb=(m1−m2)(m1−m2)T=NN1N2∑2i=1(mi−m)(mi−m)T
.(注意
m=1N1m1+1N2m2
)
②
St=Sw+kSb
,其中
k=N1N2N
,即 「整體散度 = 類內散度 + 類間散度」.
由此能夠將兩類 Fisher 推廣到 c 類情形。類內散度、類間散度和整體散度矩陣可分別推導以下:
Sw=∑ci=1∑Nij=1(xj−mi)(xj−mi)T
(
=∑Ni=1xixTi−∑ci=1NimimTi
).
St=∑Ni=1(xi−m)(xi−m)T
(
=∑Ni=1xixTi−NmmT
).
Sb=St−Sw=∑ci=1NimimTi−NmmT
=∑ci=1Ni(mi−m)(mi−m)T
.
c 類 Fisher 線性判別分析:
根據 c 類樣本,構建類內類間散度矩陣以下:
Sw=∑ci=1∑xj∈i(xj−mi)(xj−mi)T
,
Sb=∑ci=1Ni(mi−m)(mi−m)T
.
其中
mi=1Ni∑xj∈ixj
,
m=1N∑ci=1Nimi
.
假設原始
d
維特徵被投影到
k
維,待求的投影矩陣爲
W∈Rk×d
,則投影后的散度矩陣爲:
sw=WSwW
,
sb=WSbWT
。
咱們構造一個當類間協方差大,類內協方差小時,值比較大的標量。可設計判別準則爲:
J(W)=tr(s−1wsb)=tr((WSwWT)−1(WSbW))
.
最大化
J(W)
獲得的權值
W
由
S−1wSb
的前
k
個特徵值對應的特徵向量組成。
特徵映射以後的多類分類問題,能夠由多類線性分類器(如多類 SVM)實現,也可假設各種樣本服從高斯分佈,基於參數估計和貝葉斯決策求解。
五、簡述感知器原理,並給出主要計算步驟,說明有什麼辦法可使得感知器的解更可靠。
六、設計一個 c 類感知器算法。
決策函數爲:
gi(x)=αTiy
,其中
y=[xT 1]T
表示增廣向量,
αi=[wTi ωi0]T
表示增廣權向量。
決策規則爲:若 g_i(x) ### g_j(x),\ \forall j\neq i,則
x∈ωi
。
學習目標爲全部訓練樣本正確分類。
優化算法(梯度降低 + 單樣本逐步修正法):
① 初始化權向量
αi(0), i=1,⋯,c
.
② 考查樣本
yk∈ωi
,若
yk
被正確分類,即 \alpha_i(t)^T y_k ### \alpha_j(t)^T y_k,\ \forall j\neq i,則全部權值不變;不然,設
αl(t)Tyj=maxjαj(t)Tyk, j≠i
,對
αi,αl
作以下調整:
αi(t+1)=αi(t)+ρtyj
,
αl(t+1)=αl(t)−ρtyj
,
αj(t+1)=αj(t), ∀j≠i
且
j≠l
.
③ 若是全部樣本都正確分類,則中止;不然考查下一個樣本,轉 ②。
當樣本線性可分時,該算法會在有限步內收斂到最優解。
當樣本線性不可分時,可逐步縮小步長
ρt
以強制算法收斂。
七、簡述最小平方偏差(MSE)判別的原理,並給出三種不一樣的優化算法。
八、證實:① 若對同類樣本取
bi
爲相同的值,則 MSE 的解等價於 Fisher 判別分析;② 若對全部樣本取
bi=1
,則當
N→∞
時,MSE 的解是貝葉斯判別函數
g0(x)=P(ω1|x)−P(ω2|x)
的最小平方偏差逼近。
九、試分別從幾何角度和推廣能力的角度闡述線性支持向量機(SVM)的原理,並給出線性不可分狀況下 SVM 學習模型。
十、證實:最優超平面等價於在感知器算法中,在限制權值尺度的條件下,求餘量的最大化。
十一、在支持向量機對偶形式的解中,對於正確分類的樣本點、邊界上的支持向量和錯分支持向量,其
αi
和
ξi
分別是多少?爲何?
十二、試設計一個 c 類支持向量機。
1三、比較四種線性分類器:Fisher 判別分析、感知器準則、MSE 和線性支持向量機,說明各自的優缺點。並針對如下數據,分別求出四種分類器對應的線性判別函數。
ω1 ω1 ω1 ω2 ω2 ω2x1324351x23330.52−1x32.5320.5−12x4315342
5、非線性分類器
一、什麼是人工神經網絡?其主要特色有哪些?給出三層前饋神經網絡的輸出公式,說明它如何應用到實際的兩類或多類分類任務中,並指出須要注意的問題。
二、推導反向傳播(BP)算法原理,並給出學習過程。
(1)推導
令
C,al,zl,Wl,bl
分別表示損失函數、第
l
層的激活值、加權和、權值矩陣和偏置向量。根據神經網絡計算過程,這幾個變量之間有以下關係:
C=C(aL)
.
al=σ(zl)
.
zl=Wlal−1+bl
.
記
δl=∂C∂zl
,容易獲得如下四個重要的梯度公式:
①
δL=∂C∂aL⊙σ′(zL)
②
δl=((Wl+1)Tδl+1)⊙σ′(zl)
③
∂C∂bl=δl
④
∂C∂Wljk=al−1kδlj
其中 ② 式的推導以下:
δl=∂C∂zl=∑k∂C∂zl+1zl+1k∂zlj=∑kzl+1k∂zljδl+1k
.
把
zl+1k∂zlj=wl+1kjσ′(zlj)
代入上式得:
δlj=∑kwl+1kjδl+1kσ′(zlj)
.
寫成矩陣形式便是 ② 式。
(2)步驟
(記
Wl,bl
爲第
l
層權值和偏置,
zl=Wl+bl
,
al=σ(zl)
,
C=C(aL)
爲損失函數,
δl=∂C∂zl
,
⊙
表示 Hadamard 積)
① 初始化:肯定神經網絡結構,用小隨機數初始化各節點權值。
② 反向傳播:獲取一個輸入樣本
x
,置
a1=x
。
- 前向傳播(Feedforward):從第
2
層到第
L
層,逐層計算每層的加權和
zl=Wlal−1+bl
和激活函數值
al=σ(zl)
.
- 計算偏差:計算最後一層導數
δL=∂C∂zL=∂C∂aL⊙σ′(zL)
.
- 反向傳播(Backpropagation):從第
L
層到第
2
層,逐層計算每層的導數
δl=((Wl+1)Tδl+1)⊙σ′(zl)
.
③ 梯度降低:對第
L
到
2
層的每一個節點,按照 ①
Wl→Wl−ηδl(al−1)T
和 ②
bl→bl−ηδl
來更新
Wl
和
bl
。
④ 終止條件:檢查終止條件是否知足,知足則中止,不然轉 ②。
(3)注意
以上步驟中:
- 取
C(a)=|y−a|22
時,
∂C∂aL
就是
(y−aL)
.
-
a=σ(z)=11+e−z
,所以
σ′(z)=a(1−a)
.
- 若是每次輸入多個樣本更新權值,則每次前向/反向計算
m
個樣本上的梯度,並把第 ③ 步「梯度降低」的更新改爲:①
Wl→Wl−∑xηδlx(al−1x)T
和 ②
bl→bl−∑xηδlx
便可。
二、給出反向傳播(BP)算法的學習過程,說明其收斂結果受哪些因素影響。並分析前饋神經網絡中,隱含層數增長對分類預測可能產生的影響。
BP 算法的最終收斂結果受初始值的影響很大。另外學習步長
η
也很重要。
三、有哪幾類人工神經網絡?闡述徑向基函數網絡的結構和功能,指出網絡中的參數,並分析在訓練一個徑向基函數網絡時,如何調節這些參數。
四、證實:當
N→∞
時,BP 算法的目標函數等價於神經網絡輸出與貝葉斯後驗機率的均方偏差。
五、說明非線性支持向量機的核函數需知足的條件,並證實:① 採用
q
階多項式核時,SVM 實現的是
q
階的多項式判別函數,② 採用徑向基核時,SVM 的決策函數與徑向基網絡形式相同,③ 採用 Sigmoid 核時,說明在
ν
和
c
知足什麼條件時,SVM 等價於包含一個隱層的多層感知器神經網絡,並證實之。
六、簡述非線性支持向量機(SVM)的核心思想,簡述如何選擇 SVM 的核函數和參數,並設計一個多類的非線性支持向量機。
七、用公式闡述用於函數擬合的支持向量機(支持向量迴歸機,SVR)原理。
八、基於核技巧把 Fisher 線性判別分析推廣到非線性狀況。
(1)回顧 Fisher
Fisher 線性判別分析的準則爲:
maxwJ(w)=wTSbwwTSww
.
對
x
進行非線性變換
x→ϕ(x)∈F
後,Fisher 的準則爲:
maxwJ(w)=wTSϕbwwTSϕww
.
其中:
Sϕb=(mϕ1−mϕ2)(mϕ1−mϕ2)T
.
Sϕw=∑i=1,2∑x∈ωi(ϕ(x)−mϕi)(ϕ(x)−mϕi)T
.
mϕi=1Ni∑x∈ωiϕ(x)
.
(2)推導