機器學習筆試題精選（一）

時間 2019-11-17

原文原文鏈接

紅色石頭的我的網站：redstonewill.com面試

機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工做崗位時，咱們經常會遇到各類各樣的機器學習問題和知識點。爲了幫助你們對這些知識點進行梳理和理解，以便可以更好地應對機器學習筆試包括面試。紅色石頭準備在公衆號連載一些機器學習筆試題系列文章，但願可以對你們有所幫助！機器學習

Q1. 在迴歸模型中，下列哪一項在權衡欠擬合（under-fitting）和過擬合（over-fitting）中影響最大？函數

A. 多項式階數性能

B. 更新權重 w 時，使用的是矩陣求逆仍是梯度降低學習

C. 使用常數項測試

答案：A網站

解析：選擇合適的多項式階數很是重要。若是階數過大，模型就會更加複雜，容易發生過擬合；若是階數較小，模型就會過於簡單，容易發生欠擬合。若是有對過擬合和欠擬合概念不清楚的，見下圖所示：cdn

Q2. 假設你有如下數據：輸入和輸出都只有一個變量。使用線性迴歸模型（y=wx+b）來擬合數據。那麼使用留一法（Leave-One Out）交叉驗證獲得的均方偏差是多少？blog

A. 10/27圖片

B. 39/27

C. 49/27

D. 55/27

答案：C

解析：留一法，簡單來講就是假設有 N 個樣本，將每個樣本做爲測試樣本，其它 N-1 個樣本做爲訓練樣本。這樣獲得 N 個分類器，N 個測試結果。用這 N個結果的平均值來衡量模型的性能。

對於該題，咱們先畫出 3 個樣本點的座標：

使用兩個點進行線性擬合，分紅三種狀況，以下圖所示：

第一種狀況下，迴歸模型是 y = 2，偏差 E1 = 1。

第二種狀況下，迴歸模型是 y = -x + 4，偏差 E2 = 2。

第三種狀況下，迴歸模型是 y = -1/3x + 2,偏差 E3 = 2/3。

則總的均方偏差爲：

MSE=\frac13(E_1^2+E_2^2+E_3^2)=\frac13(1^2+2^2+(\frac23)^2)=\frac{49}{27}

Q3. 下列關於極大似然估計（Maximum Likelihood Estimate，MLE），說法正確的是（多選）？

A. MLE 可能並不存在

B. MLE 老是存在

C. 若是 MLE 存在，那麼它的解可能不是惟一的

D. 若是 MLE 存在，那麼它的解必定是惟一的

答案：AC

解析：若是極大似然函數 L(θ) 在極大值處不連續，一階導數不存在，則 MLE 不存在，以下圖所示：

另外一種狀況是 MLE 並不惟一，極大值對應兩個 θ。以下圖所示：

Q4. 若是咱們說「線性迴歸」模型完美地擬合了訓練樣本（訓練樣本偏差爲零），則下面哪一個說法是正確的？

A. 測試樣本偏差始終爲零

B. 測試樣本偏差不可能爲零

C. 以上答案都不對

答案：C

解析：根據訓練樣本偏差爲零，沒法推斷測試樣本偏差是否爲零。值得一提是，若是測試樣本樣本很大，則極可能發生過擬合，模型不具有很好的泛化能力！

Q5. 在一個線性迴歸問題中，咱們使用 R 平方（R-Squared）來判斷擬合度。此時，若是增長一個特徵，模型不變，則下面說法正確的是？

A. 若是 R-Squared 增長，則這個特徵有意義

B. 若是R-Squared 減少，則這個特徵沒有意義

C. 僅看 R-Squared 單一變量，沒法肯定這個特徵是否有意義。

D. 以上說法都不對

答案：C

解析：線性迴歸問題中，R-Squared 是用來衡量回歸方程與真實樣本輸出之間的類似程度。其表達式以下所示：

上式中，分子部分表示真實值與預測值的平方差之和，相似於均方差 MSE；分母部分表示真實值與均值的平方差之和，相似於方差 Var。根據 R-Squared 的取值，來判斷模型的好壞：若是結果是 0，說明模型擬合效果不好；若是結果是 1，說明模型無錯誤。通常來講，R-Squared 越大，表示模型擬合效果越好。R-Squared 反映的是大概有多準，由於，隨着樣本數量的增長，R-Square必然增長，沒法真正定量說明準確程度，只能大概定量。

對於本題來講，單獨看 R-Squared，並不能推斷出增長的特徵是否有意義。一般來講，增長一個特徵，R-Squared 可能變大也可能保持不變，二者不必定呈正相關。

若是使用校訂決定係數（Adjusted R-Square）：

其中，n 是樣本數量，p 是特徵數量。Adjusted R-Square 抵消樣本數量對 R-Square的影響，作到了真正的 0~1，越大越好。

Q6. 下列關於線性迴歸分析中的殘差（Residuals）說法正確的是？

A. 殘差均值老是爲零

B. 殘差均值老是小於零

C. 殘差均值老是大於零

D. 以上說法都不對

答案：A

解析：線性迴歸分析中，目標是殘差最小化。殘差平方和是關於參數的函數，爲了求殘差極小值，令殘差關於參數的偏導數爲零，會獲得殘差和爲零，即殘差均值爲零。

Q7. 下列關於異方差（Heteroskedasticity）說法正確的是？

A. 線性迴歸具備不一樣的偏差項

B. 線性迴歸具備相同的偏差項

C. 線性迴歸偏差項爲零

D. 以上說法都不對

答案：A

解析：異方差性是相對於同方差（Homoskedasticity）而言的。所謂同方差，是爲了保證迴歸參數估計量具備良好的統計性質，經典線性迴歸模型的一個重要假定：整體迴歸函數中的隨機偏差項知足同方差性，即它們都有相同的方差。若是這一假定不知足，即：隨機偏差項具備不一樣的方差，則稱線性迴歸模型存在異方差性。

一般來講，奇異值的出現會致使異方差性增大。

Q8. 下列哪一項能反映出 X 和 Y 之間的強相關性？

A. 相關係數爲 0.9

B. 對於無效假設 β=0 的 p 值爲 0.0001

C. 對於無效假設 β=0 的 t 值爲 30

D. 以上說法都不對

答案：A

解析：相關係數的概念咱們很熟悉，它反映了不一樣變量之間線性相關程度，通常用 r 表示。

r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}

其中，Cov(X,Y) 爲 X 與 Y 的協方差，Var[X] 爲 X 的方差，Var[Y] 爲 Y 的方差。r 取值範圍在 [-1,1] 之間，r 越大表示相關程度越高。A 選項中，r=0.9 表示 X 和 Y 之間有較強的相關性。

而 p 和 t 的數值大小沒有統計意義，只是將其與某一個閾值進行比對,以獲得二選一的結論。例如，有兩個假設：

無效假設（null hypothesis）H0：兩參量間不存在「線性」相關。
備擇假設（alternative hypothesis）H1：兩參量間存在「線性」相關。

若是閾值是 0.05，計算出的 p 值很小，好比爲 0.001，則能夠說「有很是顯著的證據拒絕 H0 假設,相信 H1 假設。即兩參量間存在「線性」相關。p 值只用於二值化判斷，所以不能說 p=0.06 必定比 p=0.07 更好。

Q9. 下列哪些假設是咱們推導線性迴歸參數時遵循的（多選）？

A. X 與 Y 有線性關係（多項式關係）

B. 模型偏差在統計學上是獨立的

C. 偏差通常服從 0 均值和固定標準差的正態分佈

D. X 是非隨機且測量沒有偏差的

答案：ABCD

解析：在進行線性迴歸推導和分析時，咱們已經默認上述四個條件是成立的。

Q10. 爲了觀察測試 Y 與 X 之間的線性關係，X 是連續變量，使用下列哪一種圖形比較適合？

A. 散點圖

B. 柱形圖

C. 直方圖

D. 以上都不對

答案：A

解析：散點圖反映了兩個變量之間的相互關係，在測試 Y 與 X 之間的線性關係時，使用散點圖最爲直觀。

Q11. 通常來講，下列哪一種方法經常使用來預測連續獨立變量？

A. 線性迴歸

B. 邏輯回顧

C. 線性迴歸和邏輯迴歸都行

D. 以上說法都不對

答案：A

解析：線性迴歸通常用於實數預測，邏輯迴歸通常用於分類問題。

Q12. 我的健康和年齡的相關係數是 -1.09。根據這個你能夠告訴醫生哪一個結論？

A. 年齡是健康程度很好的預測器

B. 年齡是健康程度很糟的預測器

C. 以上說法都不對

答案：C

解析：由於相關係數的範圍是 [-1,1] 之間，因此，-1.09 不可能存在。

Q13. 下列哪種偏移，是咱們在最小二乘直線擬合的狀況下使用的？圖中橫座標是輸入 X，縱座標是輸出 Y。

A. 垂直偏移（vertical offsets）

B. 垂向偏移（perpendicular offsets）

C. 兩種偏移均可以

D. 以上說法都不對

答案：A

解析：線性迴歸模型計算損失函數，例如均方差損失函數時，使用的都是 vertical offsets。perpendicular offsets 通常用於主成分分析（PCA）中。

Q14. 假如咱們利用 Y 是 X 的 3 階多項式產生一些數據（3 階多項式能很好地擬合數據）。那麼，下列說法正確的是（多選）？

A. 簡單的線性迴歸容易形成高誤差（bias）、低方差（variance）

B. 簡單的線性迴歸容易形成低誤差（bias）、高方差（variance）

C. 3 階多項式擬合會形成低誤差（bias）、高方差（variance）

D. 3 階多項式擬合具有低誤差（bias）、低方差（variance）

答案：AD

解析：誤差和方差是兩個相對的概念，就像欠擬合和過擬合同樣。若是模型過於簡單，一般會形成欠擬合，伴隨着高誤差、低方差；若是模型過於複雜，一般會形成過擬合，伴隨着低誤差、高方差。

用一張圖來形象地表示誤差與方差的關係：

圖片來源：https://www.zhihu.com/question/27068705

誤差（bias）能夠當作模型預測與真實樣本的差距，想要獲得 low bias，就得複雜化模型，可是容易形成過擬合。方差（variance）能夠當作模型在測試集上的表現，想要獲得 low variance，就得簡化模型，可是容易形成欠擬合。實際應用中，誤差和方差是須要權衡的。若模型在訓練樣本和測試集上都表現的不錯，誤差和方差都會比較小，這也是模型比較理想的狀況。

Q15. 假如你在訓練一個線性迴歸模型，有下面兩句話：

1. 若是數據量較少，容易發生過擬合。

2. 若是假設空間較小，容易發生過擬合。

關於這兩句話，下列說法正確的是？

A. 1 和 2 都錯誤

B. 1 正確，2 錯誤

C. 1 錯誤，2 正確

D. 1 和 2 都正確

答案：B

解析：先來看第 1 句話，若是數據量較少，容易在假設空間找到一個模型對訓練樣本的擬合度很好，容易形成過擬合，該模型不具有良好的泛化能力。

再來看第 2 句話，若是假設空間較小，包含的可能的模型就比較少，也就不太可能找到一個模型可以對樣本擬合得很好，容易形成高誤差、低方差，即欠擬合。

參考文獻：