機器學習筆試題精選(二)

紅色石頭的我的網站:redstonewill.com算法

上次 機器學習筆試題精選(一)中,咱們詳細解析了機器學習筆試 15 道題。今天,紅色石頭帶你們繼續「死磕」相關筆試題!機器學習

往期回顧:函數

直通 BAT!機器學習筆試題精選(一)學習

Q1. 假如咱們使用 Lasso 迴歸來擬合數據集,該數據集輸入特徵有 100 個(X1,X2,...,X100)。如今,咱們把其中一個特徵值擴大 10 倍(例如是特徵 X1),而後用相同的正則化參數對 Lasso 迴歸進行修正。測試

那麼,下列說法正確的是?優化

A. 特徵 X1 極可能被排除在模型以外網站

B. 特徵 X1 極可能還包含在模型之中.net

C. 沒法肯定特徵 X1 是否被捨棄orm

D. 以上說法都不對cdn

答案: B

解析:Lasso 迴歸相似於線性迴歸,只不過它在線性迴歸的基礎上,增長了一個對全部參數的數值大小約束,以下所示:

min\ \frac1m\sum_{i=1}^m(y_i-\beta_0-x_i^T\beta)^2\ \ subject\ to\ \ ||\beta||_1\leq t

其中,t 爲正則化參數。Lasso 迴歸其實就是在普通線性迴歸的損失函數的基礎上增長了個 β 的約束。那麼 β 的約束爲何要使用這種形式,而不使用 β 的平方約束呢?緣由就在於第一範數的約束下,一部分迴歸係數恰好能夠被約束爲 0。這樣的話,就達到了特徵選擇的效果。以下圖所示:

左邊是第二範式,右邊是第一範式。第一範數約束下,β 更有可能被約束成 0。這點很是相似於 L1 和 L2 正則化的區別,有興趣的請看我以前一篇文章:機器學習中 L1 和 L2 正則化的直觀解釋

所以,Lasso 迴歸適用於樣本數量較少,特徵維度較大的情形,便於從較多特徵中進行特徵選擇。例如 DNA 數據,特徵維度很大,咱們只但願經過 Lasso 迴歸找出與某些疾病有關的 DNA 片斷。

本題中,將特徵 X1 數值擴大 10 倍,他對應的迴歸係數將相應會減少,但不爲 0,以此來保證仍然知足 β 的正則化約束。

Q2. 關於特徵選擇,下列對 Ridge 迴歸和 Lasso 迴歸說法正確的是?

A. Ridge 迴歸適用於特徵選擇

B. Lasso 迴歸適用於特徵選擇

C. 兩個都適用於特徵選擇

D. 以上說法都不對

答案:B

解析:上一題咱們已經介紹過,Lasso 迴歸會讓一部分迴歸係數恰好能夠被約束爲 0,起到特徵選擇的效果。

Ridge 迴歸又稱嶺迴歸,它是普通線性迴歸加上 L2 正則項,用來防止訓練過程當中出現的過擬合。L2 正則化效果相似上一題左圖,限定區域是圓,這樣,獲得的迴歸係數爲 0 的機率很小,很大機率是非零的。所以,比較來講,Lasso 迴歸更容易獲得稀疏的迴歸係數,有利於捨棄冗餘或無用特徵,適用於特徵選擇。

Q3. 若是在線性迴歸模型中增長一個特徵變量,下列可能發生的是(多選)?

A. R-squared 增大,Adjust R-squared 增大

B. R-squared 增大,Adjust R-squared 減少

C. R-squared 減少,Adjust R-squared 減少

D. R-squared 減少,Adjust R-squared 增大

答案:AB

解析:線性迴歸問題中,R-Squared 是用來衡量回歸方程與真實樣本輸出之間的類似程度。其表達式以下所示:

這裏寫圖片描述

上式中,分子部分表示真實值與預測值的平方差之和,相似於均方差 MSE;分母部分表示真實值與均值的平方差之和,相似於方差 Var。通常來講,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準,由於,隨着樣本數量的增長,R-Squared 必然增長,沒法真正定量說明準確程度,只能大概定量。

單獨看 R-Squared,並不能推斷出增長的特徵是否有意義。一般來講,增長一個特徵特徵,R-Squared 可能變大也可能保持不變,二者不必定呈正相關。

若是使用校訂決定係數(Adjusted R-Squared):

這裏寫圖片描述

其中,n 是樣本數量,p 是特徵數量。Adjusted R-Squared 抵消樣本數量對 R-Squared 的影響,作到了真正的 0~1,越大越好。

增長一個特徵變量,若是這個特徵有意義,Adjusted R-Square 就會增大,若這個特徵是冗餘特徵,Adjusted R-Squared 就會減少。

Q4. 下面三張圖展現了對同一訓練樣本,使用不一樣的模型擬合的效果(藍色曲線)。那麼,咱們能夠得出哪些結論(多選)?

A. 第 1 個模型的訓練偏差大於第 2 個、第 3 個模型

B. 最好的模型是第 3 個,由於它的訓練偏差最小

C. 第 2 個模型最爲「健壯」,由於它對未知樣本的擬合效果最好

D. 第 3 個模型發生了過擬合

E. 全部模型的表現都同樣,由於咱們並無看到測試數據

答案:ACD

解析:一、二、3 模型分別對應的多項式階數由小到大,即模型由簡單到複雜。模型越簡單,容易發生欠擬合;模型越複雜,容易發生過擬合。第 1 個模型過於簡單,出現欠擬合;第 3 個模型過於複雜,對訓練樣本擬合得很好,但在測試樣本上效果會不好,即過擬合;第 2 個模型最爲「健壯」,在訓練樣本和測試樣本上擬合效果都不錯!

Q5. 下列哪些指標能夠用來評估線性迴歸模型(多選)?

A. R-Squared

B. Adjusted R-Squared

C. F Statistics

D. RMSE / MSE / MAE

答案:ABCD

解析:R-Squared 和 Adjusted R-Squared 的概念,咱們在 Q3 有過介紹,它們均可以用來評估線性迴歸模型。F Statistics 是指在零假設成立的狀況下,符合F分佈的統計量,多用於計量統計學中。

RMSE 指的是均方根偏差:

RMSE=\sqrt{\frac1m\sum_{i=1}^m(y^{(i)}-\hat y^{(i)})^2}

MSE 指的是均方偏差:

MSE=\frac1m\sum_{i=1}^m(y^{(i)}-\hat y^{(i)})^2

MAE 指的是評價絕對偏差:

MAE=\frac1m\sum_{i=1}^m|y^{(i)}-\hat y^{(i)}|

以上指標均可以用來評估線性迴歸模型。

Q6. 線性迴歸中,咱們可使用正規方程(Normal Equation)來求解係數。下列關於正規方程說法正確的是?

A. 不須要選擇學習因子

B. 當特徵數目不少的時候,運算速度會很慢

C. 不須要迭代訓練

答案:ABC

解析:求解線性迴歸係數,咱們通常最經常使用的方法是梯度降低,利用迭代優化的方式。除此以外,還有一種方法是使用正規方程,原理是基於最小二乘法。下面對正規方程作簡要的推導。

已知線性迴歸模型的損失函數 Ein 爲:

E_{in}=\frac1m(XW-Y)^2

對 Ein 計算導數,令 ∇Ein=0:

\nabla E_{in}=\frac2m(X^TXW-X^TY)=0

而後就能計算出 W:

W=(X^TX)^{-1}X^TY

以上就是使用正規方程求解係數 W 的過程。能夠看到,正規方程求解過程不須要學習因子,也沒有迭代訓練過程。當特徵數目不少的時候,X^TX 矩陣求逆會很慢,這時梯度降低算法更好一些。

若是 X^TX 矩陣不可逆,是奇異矩陣怎麼辦呢?其實,大部分的計算逆矩陣的軟件程序,均可以處理這個問題,也會計算出一個逆矩陣。因此,通常僞逆矩陣是可解的。

Q7. 若是 Y 是 X(X1,X2,...,Xn)的線性函數:

Y = β0 + β1X1 + β2X2 + ··· + βnXn

則下列說法正確的是(多選)?

A. 若是變量 Xi 改變一個微小變量 ΔXi,其它變量不變。那麼 Y 會相應改變 βiΔXi。

B. βi 是固定的,無論 Xi 如何變化

C. Xi 對 Y 的影響是相互獨立的,且 X 對 Y 的總的影響爲各自份量 Xi 之和

答案:ABC

解析:這題很是簡單,Y 與 X(X1,X2,...,Xn)是線性關係,故能得出 ABC 結論。

Q8. 構建一個最簡單的線性迴歸模型須要幾個係數(只有一個特徵)?

A. 1 個

B. 2 個

C. 3 個

D. 4 個

答案:B

解析:最簡單的線性迴歸模型,只有一個特徵,即 Y = aX + b,包含 a 和 b 兩個係數。

Q9. 下面兩張圖展現了兩個擬合迴歸線(A 和 B),原始數據是隨機產生的。如今,我想要計算 A 和 B 各自的殘差之和。注意:兩種圖中的座標尺度同樣。

關於 A 和 B 各自的殘差之和,下列說法正確的是?

A. A 比 B 高

B. A 比 B 小

C. A 與 B 相同

D. 以上說法都不對

答案:C

解析:A 和 B 中各自的殘差之和應該是相同的。線性迴歸模型的損失函數爲:

J=\frac1m(XW-Y)^2

對損失函數求導,並令 ∇J=0,便可獲得 XW-Y=0,即殘差之和始終爲零。

Q10. 若是兩個變量相關,那麼它們必定是線性關係嗎?

A. 是

B. 不是

答案:B

解析:相關不必定是線性關係,也有多是非線性相關。

Q11. 兩個變量相關,它們的相關係數 r 可能爲 0。這句話是否正確?

A. 正確

B. 錯誤

答案:A

解析:通常來講,相關係數 r=0 是兩變量相互獨立的必要不充分條件。也就是說,若是兩個變量相互獨立,那麼相關係數 r 必定爲 0,若是相關係數 r=0,則不必定相互獨立。相關係數 r=0 只能說明兩個變量之間不存在線性關係,仍然可能存在非線性關係。

那麼,若兩個變量相關,存在非線性關係,那麼它們的相關係數 r 就爲 0。

Q12. 加入使用邏輯迴歸對樣本進行分類,獲得訓練樣本的準確率和測試樣本的準確率。如今,在數據中增長一個新的特徵,其它特徵保持不變。而後從新訓練測試。則下列說法正確的是?

A. 訓練樣本準確率必定會下降

B. 訓練樣本準確率必定增長或保持不變

C. 測試樣本準確率必定會下降

D. 測試樣本準確率必定增長或保持不變

答案:B

解析:在模型中增長更多特徵通常會增長訓練樣本的準確率,減少 bias。可是測試樣本準確率不必定增長,除非增長的特徵是有效特徵。

這題對應的知識點也包括了增長模型複雜度,雖然會減少訓練樣本偏差,可是容易發生過擬合。

Q13. 下面這張圖是一個簡單的線性迴歸模型,圖中標註了每一個樣本點預測值與真實值的殘差。計算 SSE 爲多少?

A. 3.02

B. 0.75

C. 1.01

D. 0.604

答案:A

解析:SSE 是平方偏差之和(Sum of Squared Error),SSE = (-0.2)^2 + (0.4)^2 + (-0.8)^2 + (1.3)^2 + (-0.7)^2 = 3.02

Q14. 假設變量 Var1 和 Var2 是正相關的,那麼下面那張圖是正確的?圖中,橫座標是 Var1,縱座標是 Var2,且對 Var1 和 Var2 都作了標準化處理。

A. Plot 1

B. Plot 2

答案:B

解析:顯然,Plot 2 顯示出 Var2 與 Var1 是正相關的,例如 Var2 = Var1。Plot 1 顯示出 Var2 與 Var1 是負相關的,例如 Var2 = -Var1。

Q15. 假設一個公司的薪資水平中位數是 $35,000,排名第 25% 和 75% 的薪資分別是 21,000 和 53,000。若是某人的薪水是 $1,那麼它能夠被當作是異常值(Outlier)嗎?

A. 能夠

B. 不能夠

C. 須要更多的信息才能判斷

D. 以上說法都不對

答案:C

解析:異常值(Outlier)指樣本中的個別值,其數值明顯偏離它(或他們)所屬樣本的其他觀測值,也稱異常數據,離羣值。目前人們對異常值的判別與剔除主要採用物理判別法和統計判別法兩種方法。

所謂物理判別法就是根據人們對客觀事物已有的認識,判別因爲外界干擾、人爲偏差等緣由形成實測數據值偏離正常結果,在實驗過程當中隨時判斷,隨時剔除。

統計判別法是給定一個置信機率,並肯定一個置信限,凡超過此限的偏差,就認爲它不屬於隨機偏差範圍,將其視爲異常值剔除。當物理識別不易判斷時,通常採用統計識別法。

該題中,所給的信息量過少,沒法確定必定是異常值。

相關文章
相關標籤/搜索