深度學習面試資料

時間 2019-11-24

標籤深度學習面試資料欄目快樂工作简体版

原文原文鏈接

卷積

1x1卷積核的做用算法

實現跨通道的交互和信息整合
進行卷積核通道數的降維和升維
加入非線性。卷積層以後通過激勵層，1*1的卷積在前一層的學習表示上添加了非線性激勵（ non-linear activation ），提高網絡的表達能力

爲何3x3卷積核數據庫

兩個3x3的堆疊卷基層的有限感覺野是5x5；三個3x3的堆疊卷基層的感覺野是7x7，故能夠經過小尺寸卷積層的堆疊替代大尺寸卷積層，而且感覺野大小不變。多個3x3的卷基層比一個大尺寸filter卷基層有更多的非線性（更多層的非線性函數），使得判決函數更加具備判決性。
多個3x3的卷積層比一個大尺寸的filter有更少的參數，假設卷基層的輸入和輸出的特徵圖大小相同爲C，那麼三個3x3的卷積層參數個數3x（3x3xCxC）=27C2；一個7x7的卷積層參數爲49C2；因此能夠把三個3x3的filter當作是一個7x7filter的分解（中間層有非線性的分解, 而且起到隱式正則化的做用。

mobilenet中depthwise卷積的做用和優點網絡

深度卷積是對輸入的每個channel獨立的用對應channel的全部卷積核去卷積,在深度卷積後面又加了pointwise convolution，這個pointwise convolution就是1*1的卷積，能夠看作是對那麼多分離的通道作了個融合。
與標準卷積相比，這種分離式卷積大大下降了計算量。

空洞卷積數據結構

pooling的缺點：pooling下采樣操做致使的信息丟失是不可逆的，內部數據結構丟失，空間層級化信息丟失，小物體信息沒法重建 (假設有四個pooling layer 則任何小於 2^4 = 16 pixel 的物體信息將理論上沒法重建。)
又叫dilation卷積，一般的分類識別模型，只須要預測每一類的機率，因此咱們不須要考慮pooling會致使損失圖像細節信息的問題，可是作像素級的預測時（譬如語義分割），就要考慮到這個問題了。因此就要有一種卷積代替pooling的做用（成倍的增長感覺野），而空洞卷積就是爲了作這個的。經過卷積核插「0」的方式，它能夠比普通的卷積得到更大的感覺野。

訓練&優化

反向傳播&梯度

梯度消失，梯度爆炸是什麼dom

從深層網絡角度來說，不一樣的層學習的速度差別很大，表現爲網絡中靠近輸出的層學習的狀況很好，靠近輸入的層學習的很慢，有時甚至訓練了好久，前幾層的權值和剛開始隨機初始化的值差很少。所以，梯度消失、爆炸，其根本緣由在於反向傳播訓練法則，屬於先天不足。
激活函數選擇不合適，好比使用sigmoid，梯度消失就會很明顯。
梯度爆炸就是因爲初始化權值過大，前面層會比後面層變化的更快，就會致使權值愈來愈大，梯度爆炸的現象就發生了。在深層網絡或循環神經網絡中，偏差梯度可在更新中累積，變成很是大的梯度，而後致使網絡權重的大幅更新，並所以使網絡變得不穩定。在極端狀況下，權重的值變得很是大，以致於溢出，致使 NaN 值。

梯度消失，梯度爆炸怎麼解決機器學習

梯度剪切這個方案主要是針對梯度爆炸提出的，其思想是設置一個梯度剪切閾值，而後更新梯度的時候，若是梯度超過這個閾值，那麼就將其強制限制在這個範圍以內。這能夠防止梯度爆炸。
權重正則化（weithts regularization）比較常見的是l1正則，和l2正則。
使用relu、leakrelu、elu等激活函數，激活後導數不會很小。
batchnorm:W的大小影響了梯度的消失和爆炸，batchnorm就是經過對每一層的輸出規範爲均值和方差一致的方法，消除了w帶來的放大縮小的影響，
殘差結構:擬合殘差，short-cut完整的梯度信息（接近1）

卷積中的反向傳播推導ide

TODO函數

損失函數

SoftMax Loss性能

計算與標註樣本的差距,取log裏面的值就是這組數據正確分類的Softmax值，它佔的比重越大，這個樣本的Loss也就越小.
計算上很是很是的方便,對權重矩陣求偏導最後結果的形式很是的簡單，只要將算出來的機率的向量對應的真正結果的那一維減1，就能夠了。

推導過程比較簡單，主要分i==j和i！=j這兩種狀況學習

Smooth L1 Loss

使用l2 loss時，當預測值與目標值相差很大時, 梯度容易爆炸, 由於梯度裏包含了x−t.使用Smooth L1 Loss，對噪聲（outliers）更魯棒。

Focal Loss

針對Single stage detector目標檢測來講，存在如下幾個問題：

極度不平衡的正負樣本比例: anchor近似於sliding window的方式會使正負樣本接近1000：1，並且絕大部分負樣本都是easy example
gradient被easy example dominant的問題：每每這些easy example雖然loss很低，但因爲數量衆多，對於loss依舊有很大貢獻，從而致使收斂到不夠好的一個結果。

提出了focal loss來解決imbalanced樣本問題，將predictions做爲example的難易反饋整合到loss中，在每次迭代中都可以自適應地鑑別樣本的「難」仍是「易」，從而讓模型在後期儘可能去學習那些hard example。

Like the focal loss,OHEM puts more emphasis on misclassified examples, but unlike FL, OHEM completely discards easy examples

優化算法

SGD

梯度降低法每進行一次迭代都須要將全部的樣本進行計算，當樣本量十分大的時候，會很是消耗計算資源，收斂速度會很慢。逐個樣本進行loss計算進行迭代的方法，稱之爲 Stochasitc Gradient Descent 簡稱SGD。而這樣會致使loss波動很大，不穩定，於是提出 mini-batch gradient descent，每次計算一個小batch。波動的減少仍是比較明顯。同時收斂的速度也是大大加快。

缺點：

對學習率的選擇很是敏感，還須要根據數據集的特色來預先定義好學習率的衰減過程
對全部參數使用相同的學習率更新，這樣的話對於稀疏和低頻特徵來講，不能實現對罕見特徵的更大幅度更新。
優化很容易陷入鞍點，而鞍點周圍偏差變化不大，從而在全部維度上的梯度都爲0，SGD很難逃出鞍點範圍。

Momentum

將以前梯度降低方向考慮到當前的梯度,梯度須要有一個衰減值γ ,推薦取0.9。這樣的作法可讓早期的梯度對當前梯度的影響愈來愈小，若是沒有衰減值，模型每每會震盪難以收斂，甚至發散。

Adagrad

上述方法中，對於每個參數θi 的訓練都使用了相同的學習率α。Adagrad算法可以在訓練中自動的對learning rate進行調整，對於出現頻率較低參數採用較大的α更新；相反，對於出現頻率較高的參數採用較小的α更新。所以，Adagrad很是適合處理稀疏數據。缺點是在訓練的中後期，分母上梯度平方的累加將會愈來愈大，從而梯度趨近於0，使得訓練提早結束。

RMSprop

Adagrad會累加以前全部的梯度平方，而RMSprop僅僅是計算對應的平均值，所以可緩解Adagrad算法學習率降低較快的問題。

Adam

Adam(Adaptive Moment Estimation)是另外一種自適應學習率的方法。它利用梯度的一階矩估計和二階矩估計動態調整每一個參數的學習率。Adam的優勢主要在於通過偏置校訂後，每一次迭代學習率都有個肯定範圍，使得參數比較平穩。

Q&A

在深度學習中，模型和數據量之間的關係

通常來講模型越大，須要的數據量越大
可是數據質量比數量重要，大量同源數據對模型的效果並不大，特別是樣本不均衡的狀況
差別性越大的數據，越能表現原始數據分佈的狀況，對模型效果提高可能有做用

如何提升深度學習的可解釋性

深度學習中的指標mAP等（衡量模型好壞的指標？）平均精度（mAP）如何計算的

傳統機器學習上，召回率和準確率定義以下

召回率 Recall = TP / (TP + FN)
準確率 Precision = TP / (TP + FP)

在機器視覺目標檢測領域也是同樣的，recall和precision只是分母抽樣的方式不一樣，計算過程以下：

首先計算C在一張圖片上的Precision=在一張圖片上類別C識別正確的個數（也就是IoU>0.5）/一張圖片上類別C的總個數

依然對於某個類別C，可能在多張圖片上有該類別，下面計算類別C的AP指數：AP=每張圖片上的Precision求和/含有類別C的圖片數目

對於整個數據集，存在多個類別C一、C二、C3：mAP=上一步計算的全部類別的AP和/總的類別數目，至關於全部類別的AP的平均值

相似對不一樣IOU threshold（如0.75等）有一樣的Map@IOU0.75

分類問題爲何要用交叉熵作loss函數，而不是mse

當咱們進行分類任務的時候，咱們的目標經常是分錯樣本越少越好，也就是零一損失。可是零一損失很難計算。咱們就尋找一些能夠進行計算的損失函數來替代零一損失。也就是說咱們把原來的優化問題轉化爲一個近似的優化問題。不一樣的ssurrogate loss function對應着不一樣的優化問題，就有着不一樣的優化目標和優化方法，也就從本質上定義了不一樣類型的分類器。當咱們用hinge loss作surrogate loss function去找一個線性分類器的時候，實際上咱們就是用的SVM。當咱們用logloss做爲surrogate loss function去求解一個線性分類器的時候，實際上咱們的模型就是LogisticsRegression。這個替身咱們就稱做surrogate loss function代理損失函數。

當咱們把原來的零一損失函數替代爲其餘損失函數的時候，咱們天然會問，當咱們對代理損失函數進行優化的時候，原來的零一損失是否也被最小化了？它們的差距是多少呢？若是最優化代理損失函數的同時咱們也最優化了本來的損失函數，咱們就稱校對性(calibration)或者一致性(consistency)。這個性質與咱們所選擇的代理損失函數相關。一個重要的定理是，若是代理損失函數是凸函數，而且在0點可導，其導數小於0，那麼它必定是具備一致性的。這也是爲何咱們一般選擇凸函數做爲咱們的loss function的緣由之一。若是用 MSE 計算softmax結果的 loss，輸出的曲線是非凸的，有不少局部的極值點。即，非凸優化問題 (non-convex)。

什麼樣的資料集不適合用深度學習?

數據集過小，數據樣本不足時，深度學習相對其它機器學習算法，沒有明顯優點。
數據集沒有局部相關特性，目前深度學習表現比較好的領域主要是圖像／語音／天然語言處理等領域，這些領域的一個共性是局部相關性。圖像中像素組成物體，語音信號中音位組合成單詞，文本數據中單詞組合成句子，這些特徵元素的組合一旦被打亂，表示的含義同時也被改變。對於沒有這樣的局部相關性的數據集，不適於使用深度學習算法進行處理。舉個例子：預測一我的的健康情況，相關的參數會有年齡、職業、收入、家庭情況等各類元素，將這些元素打亂，並不會影響相關的結果。

im2col原理

caffe中的卷積使用im2col以及sgemm方式實現，im2col以下圖所示：

優勢：邏輯簡單，實現容易
缺點：須要大量的內存開銷

最後一步就是，Filter Matrix乘以Feature Matrix的轉置，獲得輸出矩陣Cout x (H x W)，就能夠解釋爲輸出的三維Blob（Cout x H x W）。

激活函數的選取

relu:
- 缺點：在（-）部分至關於神經元死亡並且不會復活
- 優勢：線性運算收斂速度更快，解決了部分梯度彌散問題
Leaky relu:
- 優勢：解決了relu中死亡神經元的問題

tanh
- 缺點：梯度消失問題依然存在
- 優勢：解決了原點對稱問題，比sigmoid更快

sigmoid
- 缺點：梯度消失，函數輸出不是以0爲中心的，這樣會使權重更新效率下降，sigmod函數要進行指數運算，這個對於計算機來講是比較慢的。

名詞解釋

IoU

Intersection over Union，交集並集比。

ROC

ROC受試者工做特徵曲線。理解以前咱們先要回顧一下真陽率（TP），假陽率（FP），假陰率(FN)，真陰率(TN)的概念：

接下來咱們考慮ROC曲線圖中的四個點和一條線。第一個點，(0,1)，即FPR=0, TPR=1，這意味着FN（false negative）=0，而且FP（false positive）=0。Wow，這是一個完美的分類器，它將全部的樣本都正確分類。第二個點，(1,0)，即FPR=1，TPR=0，相似地分析能夠發現這是一個最糟糕的分類器，由於它成功避開了全部的正確答案。第三個點，(0,0)，即FPR=TPR=0，即FP（false positive）=TP（true positive）=0，能夠發現該分類器預測全部的樣本都爲負樣本（negative）。相似的，第四個點（1,1），分類器實際上預測全部的樣本都爲正樣本。通過以上的分析，咱們能夠斷言，ROC曲線越接近左上角，該分類器的性能越好。

咱們從高到低，依次將分類器s輸出「Score」值做爲閾值threshold，當測試樣本屬於正樣本的機率大於或等於這個threshold時，咱們認爲它爲正樣本，不然爲負樣本。當咱們將threshold設置爲1和0時，分別能夠獲得ROC曲線上的(0,0)和(1,1)兩個點。將這些(FPR,TPR)對鏈接起來，就獲得了ROC曲線。當threshold取值越多，ROC曲線越平滑。

當測試集中的正負樣本的分佈變化的時候，ROC曲線可以保持不變，特別適合正負樣本不均衡的狀況

AUC

AUC值是一個機率值，當你隨機挑選一個正樣本以及一個負樣本，當前的分類算法根據計算獲得的Score值將這個正樣本排在負樣本前面的機率就是AUC值。固然，AUC值越大，當前的分類算法越有可能將正樣本排在負樣本前面，即可以更好的分類。

HOG

梯度直方圖(Histogram of Gradient)，計算過程以下：

標準化gamma空間和顏色空間。爲了減小光照因素的影響，首先須要將整個圖像進行規範化（歸一化）,這種壓縮處理可以有效地下降圖像局部的陰影和光照變化。
對於灰度圖像，通常爲了去除噪點，因此會先利用離散高斯平滑模板進行平滑：高斯函數在不一樣平滑的尺度下進行對灰度圖像進行平滑操做。
以下圖，計算圖像梯度：式中Gx(x,y),Gy(x,y)分別表示輸入圖像在像素點(x,y)處的水平方向梯度和垂直方向梯度。則G(x,y),α(x,y)分別爲像素點(x,y)的梯度幅值和梯度方向。首先用[-1,0,1]梯度算子對原圖像作卷積運算，獲得水平方向（以向右爲正方向）的梯度份量，而後用[1,0,-1]T梯度算子對原圖像作卷積運算，獲得豎直方向（以向上爲正方向）的梯度份量。

將圖像分紅若干個「單元格cell」，例如每一個cell爲8X8的像素大小。假設採用9個bin的直方圖來統計這8X8個像素的梯度信息，即將cell的梯度方向0～180度（或0～360度，考慮了正負，signed）分紅9個方向塊。以下圖所示：若是這個像素的梯度方向是20-40度，直方圖第2個bin即的計數就加1，這樣，對cell內每一個像素用梯度方向在直方圖中進行加權投影，將其映射到對應的角度範圍塊內，就能夠獲得這個cell的梯度方向直方圖了，就是該cell對應的9維特徵向量（由於有9個bin）。這邊的加權投影所用的權值爲當前點的梯度幅值。例如說：某個像素的梯度方向是在，其梯度幅值是4，那麼直方圖第2個bin的計數就不是加1了，而是加4。這樣就獲得關於梯度方向的一個加權直方圖。

各個細胞單元組合成大的、空間上連通的區域（blocks）。這樣，一個block內全部cell的特徵向量串聯起來便獲得該block的HOG特徵。這些區間是互有重疊的，這就意味着：每個單元格的特徵會以不一樣的結果屢次出如今最後的特徵向量中。

如上圖，通常一個塊（Block）都由若干單元（Cell）組成，一個單元都有如干個像素點組成。假設參數設置是：2×2 cell/block、8×8像素/cell、9個直方圖通道（9bins），一個塊的特徵向量長度爲：2×2×9。對block塊內的HOG特徵向量進行歸一化。通常採用的歸一化函數有L2-norm

最後將HOG送入一個svm分類器作訓練，特徵維度以下獲得：
- detection window:64×128;
- 8×8 pixels/cell; bin=9; 2×2cells/block;
- blockstride=1cell; 參考卷積stride
- block number:15×7=105;參考卷積中的 VALID方式
- Length of HOG feature vector: 2×2×9×15×7=3780，最後就是把這麼一個3780維的特徵向量輸入給SVM作訓練分類。

綜上，HOG具備如下優勢：

核心思想是所檢測的局部物體外形可以被梯度或邊緣方向的分佈所描述，HOG能較好地捕捉局部形狀信息，對幾何和光學變化都有很好的不變性；
HOG是在密集採樣的圖像塊中求取的，在計算獲得的HOG特徵向量中隱含了該塊與檢測窗口之間的空間位置關係。

可是，HOG的缺點以下：

很難處理遮擋問題，人體姿式動做幅度過大或物體方向改變也不易檢測
跟SIFT相比，HOG沒有選取主方向，也沒有旋轉梯度方向直方圖，於是自己不具備旋轉不變性（較大的方向變化），其旋轉不變性是經過採用不一樣旋轉方向的訓練樣原本實現的
跟SIFT相比，HOG自己不具備尺度不變性，其尺度不變性是經過縮放檢測窗口圖像的大小來實現的
因爲梯度的性質，HOG對噪點至關敏感，在實際應用中，在Block和Cell劃分以後，對於獲得各個像區域中，有時候還會作一次高斯平滑去除噪點

圖像金字塔

圖像金字塔是一種以多分辨率來解釋圖像的結構，經過對原始圖像進行多尺度像素採樣的方式，生成N個不一樣分辨率的圖像。得到圖像金字塔通常包括二個步驟：

利用低通濾波器平滑圖像
對平滑圖像進行抽樣（採樣），兩種採樣方式：上採樣（分辨率逐級升高）和下采樣（分辨率逐級下降

高斯金字塔

高斯金字塔式在Sift算子中提出來的概念，首先高斯金字塔並非一個金字塔，而是有不少組（Octave）金字塔構成，而且每組金字塔都包含若干層（Interval）。

先將原圖像擴大一倍以後做爲高斯金字塔的第1組第1層，將第1組第1層圖像經高斯卷積（其實就是高斯平滑或稱高斯濾波）以後做爲第1組金字塔的第2層，高斯卷積函數爲：

將σ乘以一個比例係數k,等到一個新的平滑因子σ=k*σ，用它來平滑第1組第2層圖像，結果圖像做爲第3層。
如此這般重複，最後獲得L層圖像，在同一組中，每一層圖像的尺寸都是同樣的，只是平滑係數不同。它們對應的平滑係數分別爲：0，σ，kσ，k^2σ ， k^3σ…… k^(L-2)σ。
將第1組倒數第三層圖像做比例因子爲2的降採樣，獲得的圖像做爲第2組的第1層，而後對第2組的第1層圖像作平滑因子爲σ的高斯平滑，獲得第2組的第2層，就像步驟2中同樣，如此獲得第2組的L層圖像，同組內它們的尺寸是同樣的，對應的平滑係數分別爲：0，σ，kσ，k^2σ,k3σ……k^(L-2)σ。可是在尺寸方面第2組是第1組圖像的一半。

這樣反覆執行，就能夠獲得一共O組，每組L層，共計O*L個圖像，這些圖像一塊兒就構成了高斯金字塔：

DOG金字塔

DOG（Difference of Gaussian）金字塔是在高斯金字塔的基礎上構建起來的，DOG金字塔的第1組第1層是由高斯金字塔的第1組第2層減第1組第1層獲得的。以此類推，逐組逐層生成每個差分圖像，全部差分圖像構成差分金字塔。歸納爲DOG金字塔的第o組第l層圖像是有高斯金字塔的第o組第l+1層減第o組第l層獲得的。

每一組在層數上，DOG金字塔比高斯金字塔少一層。後續Sift特徵點的提取都是在DOG金字塔上進行的。對這些DOG圖像進行歸一化，可有很明顯的看到差分圖像所蘊含的特徵，而且有一些特徵是在不一樣模糊程度、不一樣尺度下都存在的，這些特徵正是Sift所要提取的「穩定」特徵。

SIFT

Scale-invariant feature transform,該算法經過求一幅圖中的特徵點（interest points,or corner points）及其有關scale 和 orientation 的描述子獲得特徵並進行圖像特徵點匹配。

構建尺度空間，在高斯金字塔中一共生成O組L層不一樣尺度的圖像，這兩個量合起來（O，L）就構成了高斯金字塔的尺度空間
爲了尋找尺度空間的極值點，每個採樣點要和它全部的相鄰點比較，看其是否比它的圖像域和尺度域的相鄰點大或者小。如圖所示，中間的檢測點和它同尺度的8個相鄰點和上下相鄰尺度對應的9×2個點共26個點比較，以確保在尺度空間和二維圖像空間都檢測到極值點。一個點若是在DOG尺度空間本層以及上下兩層的26個領域中是最大或最小值時，就認爲該點是圖像在該尺度下的一個特徵點,如圖所示。

DOG值對噪聲和邊緣比較敏感，因此在第2步的尺度空間中檢測到的局部極值點還要通過進一步的篩選，去除不穩定和錯誤檢測出的極值點。
給特徵點賦值一個128維方向參數：肯定了每幅圖中的特徵點，爲每一個特徵點計算一個方向，依照這個方向作進一步的計算，利用關鍵點鄰域像素的梯度方向分佈特性爲每一個關鍵點指定方向參數，使算子具有旋轉不變性。在以關鍵點爲中心的鄰域窗口內採樣，並用直方圖統計鄰域像素的梯度方向。梯度直方圖的範圍是0～360度，其中每45度一個柱，總共8個柱, 或者每10度一個柱，總共36個柱。直方圖的峯值則表明了該關鍵點處鄰域梯度的主方向，即做爲該關鍵點的方向。

首先將座標軸旋轉爲關鍵點的方向，以確保旋轉不變性。以關鍵點爲中心取8×8的窗口。，圖中藍色的圈表明高斯加權的範圍（越靠近關鍵點的像素梯度方向信息貢獻越大）。而後在每4×4的小塊上計算8個方向的梯度方向直方圖，繪製每一個梯度方向的累加值，便可造成一個種子點，如圖右部分示。此圖中一個關鍵點由2×2共4個種子點組成，每一個種子點有8個方向向量信息。這種鄰域方向性信息聯合的思想加強了算法抗噪聲的能力，同時對於含有定位偏差的特徵匹配也提供了較好的容錯性。

實際應用時計算keypoint周圍的16X16的window中每個像素的梯度，並且使用高斯降低函數下降遠離中心的權重。這樣就能夠對每一個feature造成一個4X4X8=128維的描述子，每一維均可以表示4X4個格子中一個的scale/orientation. 將這個向量歸一化以後，就進一步去除了光照的影響。

綜上，SIFT具備如下優勢：

SIFT特徵是圖像的局部特徵，其對旋轉、尺度縮放、亮度變化保持不變性，對視角變化、仿射變換、噪聲也保持必定程度的穩定性。
獨特性好，信息量豐富，適用於在海量特徵數據庫中進行快速、準確的匹配。
多量性，即便少數的幾個物體也能夠產生大量SIFT特徵向量。
可擴展性，能夠很方便的與其餘形式的特徵向量進行聯合。

Sobel、canny 算子邊緣檢測

Sobel算子
sobel算子的思想，Sobel算子認爲，鄰域的像素對當前像素產生的影響不是等價的，因此距離不一樣的像素具備不一樣的權值，對算子結果產生的影響也不一樣。通常來講，距離越遠，產生的影響越小。 sobel算子的原理，對傳進來的圖像像素作卷積，卷積的實質是在求梯度值，或者說給了一個加權平均，其中權值就是所謂的卷積核；而後對生成的新像素灰度值作閾值運算，以此來肯定邊緣信息.Sobel算子包含兩組3x3的矩陣，分別爲橫向及縱向模板，將之與圖像做平面卷積，便可分別得出橫向及縱向的亮度差分近似值。

優勢：計算簡單，速度很快；

缺點：計算方向單一，對複雜紋理的狀況顯得乏力；直接用閾值來判斷邊緣點欠合理解釋，會形成較多的噪聲點誤判。

haar

自動微分

全部數值計算歸根結底是一系列有限的可微算子的組合。自動微分法是一種介於符號微分和數值微分的方法：數值微分（計算量太大）強調一開始直接代入數值近似求解；符號微分（表達式膨脹）強調直接對代數進行求解，最後才代入問題數值；自動微分將符號微分法應用於最基本的算子，好比常數，冪函數，指數函數，對數函數，三角函數等，而後代入數值，保留中間結果，最後再應用於整個函數。