知識點彙總
如下全部知識點是我在期末複習過程當中本身整理的,採用類似算法對比分析的方式進行總結。算法
- 從判別函數的角度分析判別函式模型與生成式模型;
- 根據判別函數的輸出來決定待識別模式屬於哪一個類別,這類方法所採用的模型稱做判別式模型。而對於生成式模型,以貝葉斯分類器爲例,不能構造區分不一樣類別的判別函數,而是考察待識別模式由不一樣類別所產生的機率,根據不一樣類別產生該模式的機率大小來決定他的類別屬性。(參照《模式識別》158頁)
- 最大似然估計與貝葉斯估計:
- 貝葉斯分類器能夠經過計算先驗機率(比較簡單)與類條件機率來設計最優分類器,貝葉斯分類器須要解決的關鍵問題就是對類條件機率的估計,但實際上難以獲得有關問題的機率結構所有知識,每每就是類條件機率,是機率密度函數。所以須要參數估計方法與非參數估計方法。貝葉斯分類器實際是類條件機率密度函數的估計,描述樣本的內在規律與個體差別。
- 最大似然估計與貝葉斯估計都屬於參數估計方法,假定了機率密度函數後須要估計分佈的參數。兩者在參數估計完成後,都使用後驗機率做爲分類準則。
- 最大似然估計把待估計的參數看做是肯定性的量,只是取值未知,最佳估計就是使得產生已觀測到的樣本的機率爲最大的那個。(經過創建似然函數,求得似然函數的最優解,肯定最有可能產生訓練樣本集合做爲參數的最大似然估計)
- 貝葉斯估計則把待估計的參數當作是符合某種先驗機率分佈的隨機矢量。對樣本D進行觀測的過程,就是把 先驗機率密度 轉化爲 後驗機率密度,這樣就利用樣本信息修正了對參數的初始估計值。(利用訓練樣本集合估計出參數矢量的分佈,而在識別時須要考慮全部可能參數產生待識別樣本的平均值,也能夠是積分)(看PPT),優勢是在小樣本集條件下的估計準確率。
-貝葉斯估計的識別過程是類條件機率密度的計算,學習過程是參數後驗機率密度的估計。
參數化方法與非參數化方法(模式分類84頁):網絡
- 對於機率密度函數的估計大體能夠分爲兩類:參數估計法和非參數估計法。這兩種方法最主要的區別在因而否須要知道機率密度函數的分佈形式。
- 參數化方法,須要對每一個類別樣本的分佈狀況具備必定先驗知識,假定類條件機率密度是某種形式的分佈函數。該機率密度函數由一組參數決定,最後利用已知的訓練樣本集合估計出具體的分佈參數。
- 非參數化方法不須要對類條件機率密度的分佈形式作出假設,而是直接利用訓練樣本集合對機率密度函數作出估計,也就是省略機率估計,直接計算後驗機率,即設計判別函數。可以處理任意機率分佈,沒必要假設形式。K近鄰法就是直接估計每一個類別的後驗機率。
- PCA與FDA:
- PCA和FDA的方法,將樣本向一個特定的線性子空間進行投影,從而實現對特徵維數進行壓縮的目的,可是兩者出發點不一樣。
- PCA不考慮樣本的類別屬性,以樣本信息損失最小爲目標,按照均方偏差最小準則來尋找最優的投影子空間。具體作法是首先計算樣本的協方差矩陣,以及該矩陣的特徵值與特徵向量,而後選擇對應最大特徵值的若干個特徵向量,構成最優子空間基矢量。因爲沒有考慮樣本的類別信息,所以PCA只是對樣本信息保留意義下的最優投影子空間,而對類別的可分性信息的保留則不是最優,可能降維後丟失可分性信息。PCA的基向量具備正交性,不相關性,特徵值。
- FDA尋找的是使得類別可分性最強意義下的最優投影子空間,在增大類別之間距離的同時縮小同類樣本的距離,具體作法是首先計算類別的類內散度矩陣\(S_w\)和類間散度矩陣\(S_b\),而後計算矩陣\(S_w^{-1}S_b\)的特徵值和特徵向量,選擇對應大特徵值的若干個特徵向量構成投影子空間的基矢量,FDA存在的問題是非零特徵值的個數最多隻有類別數減1個。FDA不具備正交性。
- 廣義線性判別函數與支持向量機:
- 廣義線性判別函數分類器屬於線性分類器的非線性推廣,SVM自己屬於線性分類器,可是加入核函數以後也進行了非線性推廣。(兩種經常使用的非線性分類器是多層感知器網絡與SVM)
- 廣義線性判別函數,將原始特徵經過一個非線性映射,映射到一個高維空間,而後在高維空間中構造線性判別函數,使得低維特徵空間下的非線性可分問題,有可能變成高維空間的線性可分問題,其在高維空間獲得的線性判別函數對應於低維空間的非線性判別函數。廣義線性判別函數的問題有:階數問題,很難肯定告判別函數的階數;維數問題,當原始特徵維數較大時,會形成維數災難。
- 非線性SVM採用與廣義線性判別函數相同的思路來實現非線性判別,不過利用了一種巧妙的方式,核函數,避免了直接在高維特徵空間中計算,這樣即便對於特別高維的特徵空間,避免維數災難的問題,也能夠有效地進學習和實現非線性判別。特徵空間中的兩個矢量的內積能夠經過定義輸入空間中的核函數直接計算獲得。不過其應用條件是核函數能對應於特徵空間的內積,並且識別過程不須要計算特徵矢量空間自己,只是須要計算特徵矢量空間的內積。
- 聚類分析的主要思想,以及聚類分析存在的主要問題:
- 聚類分析屬於無監督學習,將沒有類別標記的一組樣本劃分爲若干子集,每一個子集內樣本具備類似性,而不一樣子集的樣本之間具備差別性。從理論上講,聚類分析能夠看做是一個混合密度估計問題。
- 聚類分析的主要問題在於雖然能夠對聚類結果提出某種評價準則,如偏差平方和準則、散佈準則,但對這些準則的優化確實是一個組合優化問題,窮舉法屬於NP問題,窮舉計算不現實。目前只能採用次優的迭代算法,經過隨機初始化,不斷迭代使得準則函數減少,直到收斂,可是不能保證收斂於最優解。同時聚類結果受到算法初始值影響嚴重、距離函數選擇的影響。而且某些聚類問題還有多是不可辨識問題。
- 感知器算法與LMSE
- 感知器是算法以錯分樣本到判別界面距離之和做爲準則。
- 最小均方偏差算法將不等式組求解轉化爲方程組的求解,以解得偏差矢量的長度平方最小準則。
- 感知器算法的特徵是當樣本集合線性可分時算法收斂,但樣本不可分時算法沒法收斂,通常來講算法收斂速度較慢。
- 最小均方偏差算法當樣本不可分時也能收斂於均方偏差最小解,當樣本數區域無窮時以均方偏差逼近貝葉斯判別函數,可是當樣本線性可分的時候,可能沒法獲得最優判別界面。
- SVM的基本思想,並說明SVM能夠實現最優線性分類器的緣由
- 支持向量機是在全部可以將兩類樣本分開的線性分類界面中尋找一個最優判別函數,使得分類超平面距離兩類樣本最遠。支持向量機的優化準則可使得分類器的VC維下降,使得其泛化能力達到最大,所以是最優的線性分類器。