【深度學習】-面試指南

問題來自於 知乎專欄-那些深度學習《面試》你可能須要知道的
這裏逐步地對每一個問題的解答進行整理,並列出參考書籍與文獻,我的水平有限,若有不對之處還望在評論處加以指正。html


1.列舉常見的一些範數及其應用場景,如\(L_0,L_1,L_2,L_{\infty},Frobenius\) 範數

Deep Learning p37-38
wikipedia
機器學習-周志華 Chapter 11面試

範數(norm)用來衡量向量的大小,代表了向量到原點的距離。
其定義爲:\[||x||_p=\Big(\sum_i|x_i|^p\Big)^{\frac1p}\]
其中\(p\in\mathbb{R}, p\ge1\)算法

\(L_0\)範數

\(L_0\) 在數學意義上來講不能稱之爲「範數」,它主要是爲了統計向量中非零元素的個數,對於\(L_0\)範數,咱們經常使用如下公式來定義(定義\(0^0=0\)):\[||x||_0=\sum_i|x_i|^0\]網絡

在壓縮感知領域中,咱們經常遇到的一個問題是對原始信號進行處理以得到稀疏樣本表示,也就是尋找包含最小非零元素的解,這個問題等價爲如下的約束最優化問題:
\[\begin{aligned} \underset{s}{\min}&\quad ||s||_0 \\ s.t.&\quad {y}=As \end{aligned}\]機器學習

可是,因爲\(L_0\)缺少一個好的數學表示,這個問題被認爲是一個NP難問題。在實際應用中,咱們根據\(L_1\)範數最小化在必定條件下與\(L_0\)範數最小化問題共解[Candes et al., 2006]將其轉換爲\(L_1\)範數最小化問題求解。ide

\(L_1\)範數

\(L_2\)範數

\(L_2\)範數又被稱之爲歐幾里得範數(Euclidean norm),表示它表示從原點出發到向量x肯定的點的歐幾里得距離。\(L_2\)範數在機器學習中出現地十分頻繁,常常簡化表示爲\(||x||\),略去了下標2。平方\(L_2\)範數也常常用來衡量向量的大小,能夠簡單地經過點積\(x^Tx\)計算。函數


2.簡單介紹一下貝葉斯機率與頻率派機率,以及在統計中對於真實參數的假設。性能

3.機率密度的萬能近似器學習

4.簡單介紹一下sigmoid,relu,softplus,tanh,RBF及其應用場景優化

5.Jacobian,Hessian矩陣及其在深度學習中的重要性

6.KL散度在信息論中度量的是那個直觀量

7.數值計算中的計算上溢與下溢問題,如softmax中的處理方式

8.與矩陣的特徵值相關聯的條件數(病態條件)指什麼,與梯度爆炸與梯度彌散的關係

9.在基於梯度的優化問題中,如何判斷一個梯度爲0的零界點爲局部極大值/全局極小值仍是鞍點,Hessian矩陣的條件數與梯度降低法的關係

10.KTT方法與約束優化問題,活躍約束的定義

11.模型容量,表示容量,有效容量,最優容量概念

12.正則化中的權重衰減與加入先驗知識在某些條件下的等價性

13.高斯分佈的普遍應用的原因

14.最大似然估計中最小化KL散度與最小化分佈之間的交叉熵的關係

15.在線性迴歸問題,具備高斯先驗權重的MAP貝葉斯推斷與權重衰減的關係,與正則化的關係

16.稀疏表示,低維表示,獨立表示

17.列舉一些沒法基於地圖的優化來最小化的代價函數及其具備的特色

18.在深度神經網絡中,引入了隱藏層,放棄了訓練問題的凸性,其意義何在

19.函數在某個區間的飽和與平滑性對基於梯度的學習的影響

20.梯度爆炸的一些解決辦法

21.MLP的萬能近似性質

22.在前饋網絡中,深度與寬度的關係及表示能力的差別

23.爲何交叉熵損失能夠提升具備sigmoid和softmax輸出的模型的性能,而使用均方偏差損失則會存在不少問題。分段線性隱藏層代替sigmoid的利弊

24.表示學習的發展的初衷?並介紹其典型例子:自編碼器

25.在作正則化過程當中,爲何只對權重作正則懲罰,而不對偏置作權重懲罰

26.在深度學習神經網絡中,全部的層中考慮使用相同的權重衰減的利弊

27.正則化過程當中,權重衰減與Hessian矩陣中特徵值的一些關係,以及與梯度彌散,梯度爆炸的關係

28.L1/L2正則化與高斯先驗/對數先驗的MAP貝葉斯推斷的關係

29.什麼是欠約束,爲何大多數的正則化可使欠約束下的欠定問題在迭代過程當中收斂

30.爲何考慮在模型訓練時對輸入(隱藏單元/權重)添加方差較小的噪聲,與正則化的關係

31.共享參數的概念及在深度學習中的普遍影響

32.Dropout與Bagging集成方法的關係,以及Dropout帶來的意義與其強大的緣由

33.批量梯度降低法更新過程當中,批量的大小與各類更新的穩定性關係

34.如何避免深度學習中的病態,鞍點,梯度爆炸,梯度彌散

35.SGD以及學習率的選擇方法,帶動量的SGD對於Hessian矩陣病態條件及隨機梯度方差的影響

36.初始化權重過程當中,權重大小在各類網絡結構中的影響,以及一些初始化的方法;偏置的初始化

37.自適應學習率算法:AdaGrad,RMSProp,Adam等算法的作法

38.二階近似方法:牛頓法,共軛梯度,BFGS等的作法

39.Hessian的標準化對於高階優化算法的意義

40.卷積網絡中的平移等變性的緣由,常見的一些卷積形式

41.pooling的作法的意義

42.循環神經網絡常見的一些依賴循環關係,常見的一些輸入輸出,以及對應的應用場景

43.seq2seq,gru,lstm等相關的原理

44.採樣在深度學習中的意義

45.自編碼器與線性因子模型,PCA,ICA等的關係

46.自編碼器在深度學習中的意義,以及一些常見的變形與應用

47.受限玻爾茲曼機普遍應用的緣由

48.穩定分佈與馬爾可夫鏈

49.Gibbs採樣的原理

50.配分函數一般難以計算的解決方案

51.幾種參數估計的聯繫與區別:MLE/MAP/貝葉斯

52.半監督的思想以及在深度學習中的應用

53.舉例CNN中的channel在不一樣數據源中的含義

54.深度學習在NLP,語音,圖像等領域的應用及經常使用的一些模型

55.word2vec與glove的比較

56.注意力機制在深度學習的某些場景中爲什麼會被大量使用,其幾種不一樣的情形

57.wide&deep模型中的wide和deep介紹

58.核迴歸與RBF網絡的關係

此處問題不少編者本人也只有一個來自教材書籍的局部認識,望各位批評指正,能夠在評論區留下正確全面的回答,共同窗習與進步。

59.LSTM結構推導,爲何比RNN好?

60.過擬合在深度學習中的常見的一些解決方案或結構設計

61.怎麼理解貝葉斯模型的有效參數數據會根據數據集的規模自動調整

相關文章
相關標籤/搜索