機器學習常見面試題

時間 2019-11-06

標籤機器學習常見面試欄目快樂工作简体版

原文原文鏈接

一、L1範式和L2方式的區別面試

（1）L1範式是對應參數向量絕對值之和算法

（2）L1範式具備稀疏性機器學習

（3）L1範式能夠用來做爲特徵選擇，而且可解釋性較強（這裏的原理是在實際Loss function中都須要求最小值，根據L1的定義可知L1最小值只有0，故能夠經過這種方式來進行特徵選擇）函數

（4）L2範式是對應參數向量的平方和，再求平方根性能

（5）L2範式是爲了防止機器學習的過擬合，提高模型的泛化能力學習

二、優化算法及其優缺點優化

舒適提示：在回答面試官的問題的時候，每每將問題往大的方面去回答，這樣不會陷於小的技術上死磕，最後很容易把本身嗑死了。spa

（1）隨即梯度降低blog

　優勢：能夠必定程度上解決局部最優解的問題io

　　缺點：收斂速度較慢

（2）批量梯度降低

　　優勢：容易陷入局部最優解

　　缺點：收斂速度較快

（3）mini_batch梯度降低

　　綜合隨即梯度降低和批量梯度降低的優缺點，提取的一箇中和的方法。

（4）牛頓法

　　牛頓法在迭代的時候，須要計算Hessian矩陣，當維度較高的時候，計算Hessian矩陣比較困難。

（5）擬牛頓法

　　擬牛頓法是爲了改進牛頓法在迭代過程當中，計算Hessian矩陣而提取的算法，它採用的方式是經過逼近Hessian的方式來進行求解。

（6）共軛梯度

（7）啓發式的優化算法

　　啓發式的優化算法有遺傳算法，粒子羣算法等。這類算法的主要思想就是設定一個目標函數，每次迭代根據相應的策略優化種羣。直到知足什麼樣的條件爲止。

三、RF與GBDT之間的區別

（1）相同點

都是由多棵樹組成
最終的結果都是由多棵樹一塊兒決定

（2）不一樣點

組成隨機森林的樹能夠分類樹也能夠是迴歸樹，而GBDT只由迴歸樹組成
組成隨機森林的樹能夠並行生成，而GBDT是串行生成
隨機森林的結果是多數表決表決的，而GBDT則是多棵樹累加之和
隨機森林對異常值不敏感，而GBDT對異常值比較敏感
隨機森林是經過減小模型的方差來提升性能，而GBDT是減小模型的誤差來提升性能的
隨機森林不須要進行數據預處理，即特徵歸一化。而GBDT則須要進行特徵歸一化

（3）RF：

　　優勢：

易於理解，易於可視化
不須要太多的數據預處理，即數據歸一化
不易過擬合
易於並行化

　　缺點：　　

不適合小樣本數據，只適合大樣本數據
大多數狀況下，RF的精度低於GBDT
適合決策邊界的是矩陣，不適合對角線型

（4）GBDT

　　優勢：

精度高

　　缺點：

參數較多，容易過擬合
不易並行化

四、SVM的模型的推導

五、SVM與樹模型之間的區別

（1）SVM

SVM是經過核函數將樣本映射到高緯空間，再經過線性的SVM方式求解分界面進行分類。
對缺失值比較敏感
能夠解決高緯度的問題
能夠避免局部極小值的問題
能夠解決小樣本機器學習的問題

（2）樹模型

能夠解決大樣本的問題
易於理解和解釋
會陷入局部最優解
易過擬合

六、梯度消失和梯度膨脹

（1）梯度消失：

根據鏈式法則，若是每一層神經元對上一層的輸出的偏導乘上權重結果都小於1的話，那麼即便這個結果是0.99，在通過足夠多層傳播以後，偏差對輸入層的偏導會趨於0

能夠採用ReLU激活函數有效的解決梯度消失的狀況

（2）梯度膨脹

根據鏈式法則，若是每一層神經元對上一層的輸出的偏導乘上權重結果都大於1的話，在通過足夠多層傳播以後，偏差對輸入層的偏導會趨於無窮大
能夠經過激活函數來解決

七、LR的原理和Loss的推導

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。