模式識別/機器學習百題(含大部分答案)

1、概論

一、簡述模式的概念和它的直觀特性,解釋什麼是模式識別,同時繪出模式識別系統的組成框圖,並說明各部分的主要功能特性。

對於存在於時間和空間中,可觀察的物體,若是咱們能夠區分它們是否相同或類似,均可以稱之爲「模式」(或「模式類」)。web

模式所指的不是事物自己,而是從事物中得到的信息。所以,模式經常表現爲具備時間和空間分佈的信息。算法

模式的直觀特性包括:可觀察性,可區分性,類似性。bootstrap

模式識別就是對模式的區分和認識,把對象根據其特徵歸到若干類別中的適當一類。網絡

模式識別系統的組成框圖以下圖所示。一個模式識別系統一般包括:原始數據獲取與預處理、特徵提取與選擇、分類或聚類、後處理四個步驟。app

這裏寫圖片描述

監督模式識別過程可概括爲五個基本步驟:分析問題、原始特徵獲取、特徵提取與選擇、分類器設計、分類決策。框架

非監督模式識別過程可概括爲五個基本步驟:分析問題、原始特徵獲取、特徵提取與選擇、聚類分析、結果解釋。機器學習

每部分說明略。svg

二、簡述模式識別系統中模式處理的完整過程,和一個分類器的設計過程。

模式處理的完整過程可概括爲:數據/信息獲取與預處理、特徵提取與選擇、分類或聚類、後處理四個步驟。函數

在統計決策中,分類器設計的過程包括:樣本(類條件)機率密度形式假定、參數或非參數密度估計、肯定準則函數、肯定決策規則。性能

在基於樣本直接設計的分類器中,分類器設計過程包括:肯定判別函數類型(線性、二次、決策樹、神經網絡等)、肯定學習目標(準則函數)、肯定優化算法,在訓練數據上學習分類器、在測試數據上評價分類器、解釋分析。

三、給出機器學習問題的形式化表示,並解釋學習機器的推廣能力。

(1)機器學習的形式化表示

已知變量 y 與輸入 x 之間存在必定的未知依賴關係,即存在一個未知的映射 F(x,y)

機器學習就是根據 n 個獨立同分布的觀測樣本 (x1,y1),,(xn,yn) ,在一組函數 f(x,ω) 中求一個最優的函數,使預測的指望風險 R(ω)=L(y,f(x,ω))dF(x,y) 最小。

其中 F(x,y) 表示全部可能出現的輸入 x 與輸出 y 的聯合機率模型。

f(x,ω) 被稱爲預測函數集, ωΩ 爲函數的廣義參數,故 f(x,ω) 能夠表示任意函數集。

L(y,f(x,ω)) 是使用 f(x,ω) y 進行預測而形成的損失。

簡而言之,機器學習,就是在一組設定的函數集中尋找使指望風險最小的最優函數。

(2)學習機器的推廣能力

模式識別是一種基於數據的機器學習,學習的目的不只是要對訓練樣本正確分類,而是要可以對全部可能樣本都正確分類,這種能力叫作推廣能力。

四、區別於基於模型的模式識別方法(統計決策原理),基於數據的模式識別方法直接從樣本設計分類器。從樣本直接設計分類器,須要肯定哪些基本要素?

須要肯定三個基本要素:① 判別函數類型(函數集),② 學習目標(準則函數),③ 優化算法。

五、給定一組有類別標號( M 類)的樣本 x1,,xN (xiRd) 。現有兩種特徵提取方法 F1 F2 ,和兩種分類方法 C1 C2 。請設計一個實驗方案,分別比較特徵提取方法和分類方法的性能。寫出詳細實驗過程。

採用 5-fold 交叉驗證來評估

2、統計決策方法

一、簡述多分類問題的最小錯誤率貝葉斯決策過程,並給出相應的最小分類錯誤率。

二、闡述最小風險貝葉斯決策原理和決策步驟,說明在什麼狀況下最小風險決策等價於最小錯誤率決策,並證實之。

(1)決策原理

最小風險貝葉斯決策的目標是,針對決策規則 α(x) ,最小化指望風險:

minαR(α)=R(α|x)p(x)dx .

因爲 R(α|x) p(x) 非負,且 p(x) 已知,與 α 無關,於是最小風險貝葉斯決策就是:

R(αi|x)=minj=1,,kR(αj|x) ,則 α=αi .

其中 R(αi|x)=E[λij|x]=cj=1P(ωj|x), i=1,,k λij=λ(αi,ωj) 表示實際爲 ωj 的向量決策爲 αi 的損失,可從事先定義的決策表查得.

(2)決策步驟

① 計算後驗機率: P(ωj|x)=p(x|ωj)P(ωj)ci=1p(x|ωi)P(ωi) .

② 利用決策表,計算條件風險: R(αi|x)=cj=1λijP(ωj|x) .

③ 決策: α=argminiR(αi|x) .

(3)等價關係

λii=0 λij=C (ij) ,其中 C 爲某一常數時,最小風險貝葉斯決策等價於最小錯誤率貝葉斯決策。

證實:

知足上述條件時,條件風險 R(αi|x)=cj=1,jiCP(ωj|x) .

則決策規則 α=argminiR(αi|x) 等價於:

α=argminijiCP(ωj|x)=argminiCP(e|x)=argmaxiP(ωi|x) .

所以,最小風險貝葉斯決策等價於最小錯誤率貝葉斯決策。

三、簡述 Neyman-Pearson 決策原理。

Neyman-Pearson 決策原理是但願在固定一類錯誤率時,使另外一類錯誤率儘量小。

P1(e)=R2p(x|ω1)dx P2(e)=R1p(x|ω2)dx 分別表示第一類錯誤率(假陰性率)和第二類錯誤率(假陽性率),則上述要求可表述爲:

minP1(e)
s.t.P2(e)ϵ0=0 .

用拉格朗日乘子法,得:

γ=R2p(x|ω1)dx+λ[R1p(x|ω2)dxϵ0]=(1λϵ0)+R1[λp(x|ω2)p(x|ω1)]dx .

分別對 λ 和決策邊界 t 求導,可得:

λ=p(x|ω1)p(x|ω2) ,② R1p(x|ω2)dx .

要使 γ 最小,應選擇 R1 使積分項內全爲負值(不然可劃出非負區域使之更小)。所以決策規則是:

l(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)} ### \lambda,則 xω1 ,不然 xω2 .

(一般 λ 很難求得封閉解,須要用數值方法求解)

四、給出假陽性率、假陰性率、靈敏度 Sn (sensitivity)、特異度 Sp (specificity)、第一類錯誤率 α 、第二類錯誤率 β 、漏報、誤報的關係,並給出相應的公式。

假陽性率就是假陽性樣本佔總陰性樣本的比例。

假陰性率就是假陰性樣本佔總陽性樣本的比例。

有:

α = 假陽性率 = 第一類錯誤率 = 誤報率 = FPFP+TN = P1(e) = R2p(x|ω1)dx .

β = 假陰性率 = 第二類錯誤率 = 漏報率 = FNFN+TP = P2(e) = R1p(x|ω2)dx .

其中 ω1,ω2 分別表示陰性和陽性兩個類別。

五、ROC 的全稱是什麼?ROC 曲線的橫軸和縱軸各是什麼?如何根據 ROC 曲線衡量一個方法的性能?給出 ROC 曲線的繪製步驟。

ROC 全稱是 Receiver Operating Characteristic。

ROC 曲線的橫軸是假陽性率,縱軸是假陰性率。

能夠根據 ROC 曲線的曲線下面積 AUC (Area Under Curve) 來衡量一個方法的性能。

對於統計決策方法,每肯定一個似然比閾值就決定了決策的真、假陽性率。所以ROC 曲線繪製步驟爲:

① 在 [0,1] 上均勻採樣 N 個點;
② 以每一個點的值做爲似然比閾值,根據公式 P1(e)=R2p(x|ω1)dx P2(e)=R1p(x|ω2)dx 計算兩類錯誤率,對應 ROC 上某個點;
③ 把這些點鏈接起來獲得 ROC 曲線。

對於基於樣本直接設計分類器的方法,ROC 曲線繪製步驟相似。只需將似然比閾值改爲歸一化後的分類器得分閾值,把兩類錯誤率的計算公式改爲 FPFP+TN FNFN+TP 便可。

六、設 p(x|ωi)N(μi,Σi), i=1,,c ,給出各種別的判別函數和決策面方程並計算錯誤率。同時說明在各種別協方差矩陣相等和不等的狀況下,決策面各是什麼形態。

七、疾病檢查, ω1 表明正常人, ω2 表明患病者。假設先驗機率 P(ω1)=0.9 , P(ω2)=0.1 。現有一被檢查者,觀察值爲 x ,查得 p(x|ω1)=0.2 , p(x|ω2)=0.4 ,同時已知風險損失函數爲 λ11λ21λ12λ22=0160 . 分別基於最小錯誤率和最小貝葉斯進行決策,並給出計算過程。

八、設 d 維隨機變量 x 各份量間相互獨立,且 d 足夠大,試基於中心極限定理估計貝葉斯錯誤率。

九、什麼是統計決策?比較基於模型的方法和基於數據的方法。

統計決策的基本原理就是根據各種特徵的機率模型來估算後驗機率,經過比較後驗機率進行決策。而經過貝葉斯公式,後驗機率的比較能夠轉化爲類條件機率密度的比較。

基於模型的方法是從模型的角度出發,把模式識別問題轉化成了機率模型估計的問題。若是可以很好地創建和估計問題的機率模型,那麼相應的分類決策問題就能被很好地解決。

基於數據的方法不依賴樣本機率分佈的假設,而直接從訓練樣本出發訓練分類器。

3、機率密度函數的估計

一、比較四種方法:參數統計方法、非參數統計方法、前饋神經網絡、支持向量機各有什麼優缺點?

(1)參數統計方法

(2)非參數統計方法

優勢:假設條件少,運算簡單,方法直觀容易理解,可以適應名義尺度和順序尺度等對象。

缺點:方法簡單,檢驗功效差,計算和存儲要求高。

(3)前饋神經網絡

優勢:分類的準確度高,並行分佈處理能力強,分佈存儲及學習能力強,對噪聲神經有較強的魯棒性和容錯能力,能充分逼近複雜的非線性關係,具有聯想記憶的功能等。特別重要的是,神經網絡能夠用來提取特徵,這是許多其餘機器學習方法所不具有的能力(例如使用autoencoder,不標註語料的狀況下,能夠獲得原始數據的降維表示)。

缺點:須要大量的參數,如網絡拓撲結構、權值和閾值的初始值;不能觀察之間的學習過程,輸出結果難以解釋,會影響到結果的可信度和可接受程度;學習時間過長,甚至可能達不到學習的目的。

(4)支持向量機

優勢:能解決小樣本問題,能處理非線性問題,無局部極小值問題,能很好地處理高維數據,泛化能力強。

缺點:對核函數的高維映射解釋能力不強(尤爲是徑向基函數),對缺失數據敏感,難以處理大規模數據,難以解決多分類問題(經常使用一對多、一對1、SVM 決策樹),對非線性問題沒有通用解決方案(有時候很難找到一個合適的核函數)。

注:缺失數據?

這裏說的缺失數據是指缺失某些特徵數據,向量數據不完整。SVM沒有處理缺失值的策略(決策樹有)。而SVM但願樣本在特徵空間中線性可分,因此特徵空間的好壞對SVM的性能很重要。缺失特徵數據將影響訓練結果的好壞。

二、最大似然估計的基本假設是什麼?給出最大似然估計的計算步驟。

三、簡述貝葉斯估計的原理和步驟。

(1)原理

貝葉斯估計把參數估計當作貝葉斯決策問題,要決策的是參數的取值,且是在連續空間裏作決策。

目標函數是最小化給定樣本集 下的條件風險:

θ=argminθ̂ R(θ̂ |)=Θλ(θ̂ ,θ)p(θ|)dθ .

λ(θ̂ ,θ)=(θθ̂ )2 ,帶入 R(θ̂ |) 並對 θ̂  求導置零可得:

θ=E[θ|]=Θθp(θ|)dθ .

(2)步驟

① 肯定 θ 的先驗分佈: p(θ) .
② 計算樣本集的聯合分佈: p(|θ)=Ni=1p(xi|θ) .
③ 計算 θ 的後驗機率: p(θ|)=p(|θ)p(θ)Θp(|θ)p(θ)dθ .
θ 的貝葉斯估計量是: θ=Θθp(θ|)dθ .

(一般沒必要求得 θ 的估計值,而是直接獲得樣本的機率密度估計 p(x|)=Θp(x|θ)p(θ|)dθ

四、簡述貝葉斯學習(區別於貝葉斯估計)的原理。

貝葉斯學習即遞推的貝葉斯估計——每次用單個樣本調整分佈,以上一次的 θ 後驗機率做爲這一次 θ 的先驗機率。

N=x1,,xN ,將貝葉斯估計結果重寫爲: θ=Θθp(θ|N)dθ .

其中:

p(θ|N)=p(N|θ)p(θ)Θp(N|θ)p(θ)dθ .

由獨立同分布,有:

p(N|θ)=p(xN|θ)p(N1|θ) .

因而能夠獲得遞推公式:

p(θ|N)=p(xN|θ)p(θ|N1 )Θp(xN|θ)p(θ|N1 )dθ .

注意,分子分母約去了 p(θ) .

因而隨着樣本的增長,能夠獲得一系列地推的貝葉斯估計:

p(θ) , p(θ|x1) , , p(θ|x1,,xN) ,

五、設某類樣本整體服從正態分佈 N(μ,Σ) ,參數未知。試基於獨立同分布樣本 x1,,xN ,分別採用最大似然估計和貝葉斯估計獲得 μ Σ 的估計值。

六、貝葉斯估計中,設 θ 被估計爲 θ̂  的風險爲 λ(θ̂ ,θ) . 最優估計應該使

R=λ(θ̂ ,θ)p(x,θ)dθdx=R(θ̂ |x)p(x)dx
最小化。其中 R(θ̂ |x)=λ(θ̂ ,θ)p(θ|x) 。證實當 λ(θ̂ ,θ)=(θ̂ θ)2 時,
θ̂ =E[θ|x]=θp(θ|x)dθ .

見第 3 題的答案。

七、基於公式 p̂ (x)=kNV ,比較三種非參數估計方法:直方圖方法、 kN 近鄰算法與 Parzen 窗法的區別與優缺點。

八、給定樣本 x1,,xN ,窗函數 ϕ(x) 和窗寬 hN ,寫出機率密度函數 p(x) 的 Parzen 窗估計公式 p̂ N(x) 。若一維空間中 p(x)N(μ,σ2) ϕ(x)N(0,1) ,證實 E[p̂ (x)]N(μ,σ2+h2N)

4、線性分類器

一、線性分類器的設計原理是什麼?與統計決策和非線性分類器相比,有哪些優缺點?闡述線性判別函數的基本概念。

二、簡述 Fisher 線性判別分析的原理,並給出主要計算步驟和分類決策規則。

三、證實:在正態等協方差矩陣條件下,Fisher 線性判別等價於貝葉斯判別函數。

貝葉斯判別:

決策面方程爲 P(ω1|x)=P(ω2|x) ,即:

lnP(x|ω1)P(x|ω2)=lnP(ω2)P(ω1) .

p(x|ωi) 服從正態分佈時,可整理得決策面方程爲:

12[(xμ1)TΣ11(xμ1)(xμ2)TΣ12(xμ2)]12ln|Σ1||Σ2|=lnP(ω2)P(ω1) .

Σ1=Σ2 時, x 的二次項被抵消,決策面變爲線性方程:

[Σ1(μ1μ2)]x+[12(μ1+μ2)TΣ1(μ1μ2)12lnP(ω2)ω1]=0 .

分類器是線性函數 g(x)=wTx+ω0 ,其中:

w=Σ1(μ1μ2) ,

ω0=12(μ1+μ2)TΣ1(μ1μ2)12lnP(ω2)ω1 .

Fisher 線性判別分析:

準則函數爲 maxwJF(w)=Sb~Sw~=wTSbwwTSww .

其中

Sb=(m1m2)(m1m2)T
Sw=i=1,2xji(xjmi)(xjmi)T .

咱們只關係 w 的方向,於是可固定 w 的尺度爲知足 wTSWw=c ,採用拉格朗日乘子法可轉化爲無約束極值問題:

L(w,λ)=wTSbwλ(wTSwc) .

極值處知足導數爲零,整理可得 S1wSbw\*=λw\* .

Sb=(m1m2)(m1m2)T 帶入,得 λw\*S1w=(m1m2)(m1m2)Tw .

注意到 (m1m2)Tw\* 是常數項,不影響 w\* 的方向,而咱們只關心 w\* 的方向,因而可取:

w=S1w(m1m2) .

閾值一般採用:

ω0=12(m̃ 1+m̃ 2) 或者

ω0=m̃  .

比較:

注意到 Si=(n1)Σi ,當 Σ1=Σ2 時,顯然有:

wF=S1w(m1m2)wB=Σ1(μ1μ2) .

所以貝葉斯決策的超平面方向與 Fisher 線性判別分析的方向是相同的。

(此外,注意到,當先驗機率相同時,兩者的分類器閾值也是相同的)

四、試設計一個 c 類 Fisher 判別分析方法。

引導:

在兩類 Fisher 判別分析中,將類內散度矩陣 Sw , 類間散度矩陣 Sb 和總體散度矩陣 St 寫出以下:

Sw=2i=1Njj=1(xjmi)(xjmi)T .
Sb=(m1m2)(m1m2)T .
St=Ni=1(xim)(xim)T .

咱們注意到兩點:

Sb=(m1m2)(m1m2)T=NN1N22i=1(mim)(mim)T .(注意 m=1N1m1+1N2m2
St=Sw+kSb ,其中 k=N1N2N ,即 「整體散度 = 類內散度 + 類間散度」.

由此能夠將兩類 Fisher 推廣到 c 類情形。類內散度、類間散度和整體散度矩陣可分別推導以下:

Sw=ci=1Nij=1(xjmi)(xjmi)T ( =Ni=1xixTici=1NimimTi ).
St=Ni=1(xim)(xim)T ( =Ni=1xixTiNmmT ).
Sb=StSw=ci=1NimimTiNmmT =ci=1Ni(mim)(mim)T .

c 類 Fisher 線性判別分析:

根據 c 類樣本,構建類內類間散度矩陣以下:

Sw=ci=1xji(xjmi)(xjmi)T ,
Sb=ci=1Ni(mim)(mim)T .

其中 mi=1Nixjixj m=1Nci=1Nimi .

假設原始 d 維特徵被投影到 k 維,待求的投影矩陣爲 WRk×d ,則投影后的散度矩陣爲: sw=WSwW , sb=WSbWT

咱們構造一個當類間協方差大,類內協方差小時,值比較大的標量。可設計判別準則爲:

J(W)=tr(s1wsb)=tr((WSwWT)1(WSbW)) .

最大化 J(W) 獲得的權值 W S1wSb 的前 k 個特徵值對應的特徵向量組成。

特徵映射以後的多類分類問題,能夠由多類線性分類器(如多類 SVM)實現,也可假設各種樣本服從高斯分佈,基於參數估計和貝葉斯決策求解。

五、簡述感知器原理,並給出主要計算步驟,說明有什麼辦法可使得感知器的解更可靠。

六、設計一個 c 類感知器算法。

決策函數爲: gi(x)=αTiy ,其中 y=[xT 1]T 表示增廣向量, αi=[wTi ωi0]T 表示增廣權向量。

決策規則爲:若 g_i(x) ### g_j(x),\ \forall j\neq i,則 xωi

學習目標爲全部訓練樣本正確分類。

優化算法(梯度降低 + 單樣本逐步修正法):

① 初始化權向量 αi(0), i=1,,c .

② 考查樣本 ykωi ,若 yk 被正確分類,即 \alpha_i(t)^T y_k ### \alpha_j(t)^T y_k,\ \forall j\neq i,則全部權值不變;不然,設 αl(t)Tyj=maxjαj(t)Tyk, ji ,對 αi,αl 作以下調整:

αi(t+1)=αi(t)+ρtyj ,
αl(t+1)=αl(t)ρtyj ,
αj(t+1)=αj(t), ji jl .

③ 若是全部樣本都正確分類,則中止;不然考查下一個樣本,轉 ②。

當樣本線性可分時,該算法會在有限步內收斂到最優解。

當樣本線性不可分時,可逐步縮小步長 ρt 以強制算法收斂。

七、簡述最小平方偏差(MSE)判別的原理,並給出三種不一樣的優化算法。

八、證實:① 若對同類樣本取 bi 爲相同的值,則 MSE 的解等價於 Fisher 判別分析;② 若對全部樣本取 bi=1 ,則當 N 時,MSE 的解是貝葉斯判別函數 g0(x)=P(ω1|x)P(ω2|x) 的最小平方偏差逼近。

九、試分別從幾何角度和推廣能力的角度闡述線性支持向量機(SVM)的原理,並給出線性不可分狀況下 SVM 學習模型。

十、證實:最優超平面等價於在感知器算法中,在限制權值尺度的條件下,求餘量的最大化。

十一、在支持向量機對偶形式的解中,對於正確分類的樣本點、邊界上的支持向量和錯分支持向量,其 αi ξi 分別是多少?爲何?

十二、試設計一個 c 類支持向量機。

1三、比較四種線性分類器:Fisher 判別分析、感知器準則、MSE 和線性支持向量機,說明各自的優缺點。並針對如下數據,分別求出四種分類器對應的線性判別函數。

 ω1 ω1 ω1 ω2 ω2 ω2x1324351x23330.521x32.5320.512x4315342

5、非線性分類器

一、什麼是人工神經網絡?其主要特色有哪些?給出三層前饋神經網絡的輸出公式,說明它如何應用到實際的兩類或多類分類任務中,並指出須要注意的問題。

二、推導反向傳播(BP)算法原理,並給出學習過程。

(1)推導

C,al,zl,Wl,bl 分別表示損失函數、第 l 層的激活值、加權和、權值矩陣和偏置向量。根據神經網絡計算過程,這幾個變量之間有以下關係:

C=C(aL) .
al=σ(zl) .
zl=Wlal1+bl .

δl=Czl ,容易獲得如下四個重要的梯度公式:

δL=CaLσ(zL)

δl=((Wl+1)Tδl+1)σ(zl)

Cbl=δl

CWljk=al1kδlj

其中 ② 式的推導以下:

δl=Czl=kCzl+1zl+1kzlj=kzl+1kzljδl+1k .

zl+1kzlj=wl+1kjσ(zlj) 代入上式得:

δlj=kwl+1kjδl+1kσ(zlj) .

寫成矩陣形式便是 ② 式。

(2)步驟

(記 Wl,bl 爲第 l 層權值和偏置, zl=Wl+bl al=σ(zl) , C=C(aL) 爲損失函數, δl=Czl , 表示 Hadamard 積)

初始化:肯定神經網絡結構,用小隨機數初始化各節點權值。

反向傳播:獲取一個輸入樣本 x ,置 a1=x
- 前向傳播(Feedforward):從第 2 層到第 L 層,逐層計算每層的加權和 zl=Wlal1+bl 和激活函數值 al=σ(zl) .
- 計算偏差:計算最後一層導數 δL=CzL=CaLσ(zL) .
- 反向傳播(Backpropagation):從第 L 層到第 2 層,逐層計算每層的導數 δl=((Wl+1)Tδl+1)σ(zl) .

梯度降低:對第 L 2 層的每一個節點,按照 ① WlWlηδl(al1)T 和 ② blblηδl 來更新 Wl bl

終止條件:檢查終止條件是否知足,知足則中止,不然轉 ②。

(3)注意

以上步驟中:

  • C(a)=|ya|22 時, CaL 就是 (yaL) .
  • a=σ(z)=11+ez ,所以 σ(z)=a(1a) .
  • 若是每次輸入多個樣本更新權值,則每次前向/反向計算 m 個樣本上的梯度,並把第 ③ 步「梯度降低」的更新改爲:① WlWlxηδlx(al1x)T 和 ② blblxηδlx 便可。

二、給出反向傳播(BP)算法的學習過程,說明其收斂結果受哪些因素影響。並分析前饋神經網絡中,隱含層數增長對分類預測可能產生的影響。

BP 算法的最終收斂結果受初始值的影響很大。另外學習步長 η 也很重要。

三、有哪幾類人工神經網絡?闡述徑向基函數網絡的結構和功能,指出網絡中的參數,並分析在訓練一個徑向基函數網絡時,如何調節這些參數。

四、證實:當 N 時,BP 算法的目標函數等價於神經網絡輸出與貝葉斯後驗機率的均方偏差。

五、說明非線性支持向量機的核函數需知足的條件,並證實:① 採用 q 階多項式核時,SVM 實現的是 q 階的多項式判別函數,② 採用徑向基核時,SVM 的決策函數與徑向基網絡形式相同,③ 採用 Sigmoid 核時,說明在 ν c 知足什麼條件時,SVM 等價於包含一個隱層的多層感知器神經網絡,並證實之。

六、簡述非線性支持向量機(SVM)的核心思想,簡述如何選擇 SVM 的核函數和參數,並設計一個多類的非線性支持向量機。

七、用公式闡述用於函數擬合的支持向量機(支持向量迴歸機,SVR)原理。

八、基於核技巧把 Fisher 線性判別分析推廣到非線性狀況。

(1)回顧 Fisher

Fisher 線性判別分析的準則爲:

maxwJ(w)=wTSbwwTSww .

x 進行非線性變換 xϕ(x)F 後,Fisher 的準則爲:

maxwJ(w)=wTSϕbwwTSϕww .

其中:

Sϕb=(mϕ1mϕ2)(mϕ1mϕ2)T .
Sϕw=i=1,2xωi(ϕ(x)mϕi)(ϕ(x)mϕi)T .
mϕi=1Nixωiϕ(x) .

(2)推導

相關文章
相關標籤/搜索