本系列文章爲 《Deep Learning》 讀書筆記,能夠參看原書一塊兒閱讀,效果更佳。算法
機器學習算法須要大量的數字計算,而且這些計算包含有一些迭代擬合的過程,在這個計算過程當中,因爲計算機的侷限,沒法徹底精確的表示,所以老是存在偏差的,小的偏差通過迭代次數的增多,或者多個偏差的疊加,甚至會使得算法不可用,系統失效。數組
解決辦法:softmax 函數,也稱 歸一化指數函數,是邏輯函數的一種推廣,將任意實數的 K 維向量映射到另一個 K 維空間內,使得每個元素都在 (0, 1) 之間。這裏的 歸一化 與以前在房價預測中提到的 標準化 不是一個概念(標準化對數據進行某種非線性變換,使其服從某一種分佈,歸一化對數值的範圍進行縮放,不改變數據分佈的一種線性變換)。機器學習
$$ softmax(x)_i=\frac{e^{x_i}}{\sum_{j=1}^ne^{x_j}} $$函數
這個詞我以爲翻譯不許確,可是你們都喜歡這麼叫暫且先這麼叫吧。通常來講這個概念針對的是方程組或矩陣,微小的擾動讓方程組的解發生巨大的變化,這樣的方程組稱爲病態方程組,他們的係數組成的矩陣叫病態矩陣。學習
與之相關的還有一個概念叫 條件數:函數相對於輸入的微小變化而變化的程度,能夠理解爲一種敏感度。計算方法是求矩陣極大和極小特徵值之比。測試
$$ \max_{i,j}=|\frac{\lambda_i}{\lambda_j}| $$優化
這個概念要分幾步去理解。對於深度學習算法,每每會定義出不少函數,針對具體的問題,咱們每每須要讓某些函數的函數值儘量的小或大,求最大值極值,咱們每每求導(針對多個變量,這裏的求導包括求偏導和方向導數),也會求梯度。梯度降低 指的是往梯度方向相反方向移動一個小距離來減少函數值的方法。這裏還有極小值、極大值、駐點、最大值、最小值等概念,再也不贅述。翻譯
在向量分析中,雅可比矩陣是一階偏導數以必定方式排列成的矩陣,它的重要性是體現了一個可微分方程與給出點的最優線性逼近。get
$$ J_{i,j}=\frac{\partial}{\partial x_j}f(x)_i $$深度學習
函數有多維輸入時,二維導數有不少,將其合爲一個矩陣,就是海森矩陣,等價於梯度的雅可比矩陣。
$$ H(f)(x)_{i,j}=\frac{\partial^2}{\partial x_i\partial x_j}f(x)=H(f)(x)_{j,i} $$
一個點在每一個方向上的二階導數是不一樣的,海森的條件數衡量這些二階導數的變化範圍,當海森的條件數變得不好時,梯度降低法也會表現得不好,在 牛頓法 中,咱們用海森矩陣指導搜索,來解決上面這個問題。
這一部分的內容涉及東西比較多,書中的內容還包括一些推導和解釋,看上文看的不是很清楚的請閱讀原書,那就不是個人筆力所能講清楚的了。
到此本書中關於應用數學相關的內容就結束了,想要放棄了嗎?