機器學習筆試題精選（三）

時間 2019-12-02

原文原文鏈接

紅色石頭的我的網站：redstonewill.compython

往期回顧：面試

機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工做崗位時，咱們經常會遇到各類各樣的機器學習問題和知識點。爲了幫助你們對這些知識點進行梳理和理解，以便可以更好地應對機器學習筆試包括面試。紅色石頭準備在公衆號連載一些機器學習筆試題系列文章，但願可以對你們有所幫助！學習

Q1. 關於「迴歸（Regression）」和「相關（Correlation）」，下列說法正確的是？注意：x 是自變量，y 是因變量。網站

A. 迴歸和相關在 x 和 y 之間都是互爲對稱的spa

B. 迴歸和相關在 x 和 y 之間都是非對稱的.net

C. 迴歸在 x 和 y 之間是非對稱的，相關在 x 和 y 之間是互爲對稱的3d

D. 迴歸在 x 和 y 之間是對稱的，相關在 x 和 y 之間是非對稱的調試

答案：C

解析：相關（Correlation）是計算兩個變量的線性相關程度，是對稱的。也就是說，x 與 y 的相關係數和 y 與 x 的相關係數是同樣的，沒有差異。

迴歸（Regression）通常是利用特徵 x 預測輸出 y，是單向的、非對稱的。

Q2. 僅僅知道變量的均值（Mean）和中值（Median），能計算的到變量的偏斜度（Skewness）嗎？

A. 能夠

B. 不能夠

答案：B

解析：偏斜度是對統計數據分佈偏斜方向及程度的度量。偏斜度是利用 3 階矩定義的，其計算公式以下：

其中，n 是樣本數量。統計數據的頻數分佈有的是對稱的，有的是不對稱的，即呈現偏態。在偏態分佈中，當偏斜度爲正值時，分佈正偏，即衆數位於算術平均數的左側；當偏斜度爲負值時，分佈負偏，即衆數位於算術平均數的右側。

咱們能夠利用衆數、中位數和算術平均數之間的關係判斷分佈是左偏態仍是右偏態，但要度量分佈偏斜的程度，就須要計算偏斜度了。

Q3. 假設有 n 組數據集，每組數據集中，x 的平均值都是 9，x 的方差都是 11，y 的平均值都是 7.50，x 與 y 的相關係數都是 0.816，擬合的線性迴歸方程都是 y = 3.00 + 0.500*x。那麼這 n 組數據集是否同樣？

A. 同樣

B. 不同

C. 沒法肯定

答案：C

解析：這裏須要知道的是 Anscombe's quartet。1973年，統計學家F.J. Anscombe 構造出了四組奇特的數據。這四組數據中，x 值的平均數都是 9.0，y 值的平均數都是 7.5；x 值的方差都是 10.0，y值的方差都是 3.75；它們的相關度都是 0.816，線性迴歸線都是 y=3+0.5x。單從這些統計數字上看來，四組數據所反映出的實際狀況很是相近，而事實上，這四組數據有着天壤之別，以下圖所示：

相應的 Python 代碼爲：

import seaborn as sns

sns.set(style="ticks")
# Load the example dataset for Anscombe's quartet
df = sns.load_dataset("anscombe")
# Show the results of a linear regression within each dataset
sns.lmplot(x="x", y="y", col="dataset", hue="dataset", data=df,
         col_wrap=2, ci=None, palette="muted", size=4,
         scatter_kws={"s": 50, "alpha": 1})
複製代碼

Q4. 觀察樣本次數如何影響過擬合（多選）？注意：全部狀況的參數都保持一致。

A. 觀察次數少，容易發生過擬合

B. 觀察次數少，不容易發生過擬合

C. 觀察次數多，容易發生過擬合

D. 觀察次數多，不容易發生過擬合

答案：AD

解析：若是樣本觀察次數較少，且樣本數量較少，經過提升模型複雜度，例如多項式階數，很容易對全部樣本點都擬合的很是好，形成過擬合。可是，若是觀察次數多，樣本更具備表明性，這時候，即便模型複雜，也不容易發生過擬合，獲得的模型可以較真實地反映真實的數據分佈。

Q5. 假如使用一個較複雜的迴歸模型來擬合樣本數據，使用 Ridge 迴歸，調試正則化參數 λ，來下降模型複雜度。若 λ 較大時，關於誤差（bias）和方差（variance），下列說法正確的是？

A. 若 λ 較大時，誤差減少，方差減少

B. 若 λ 較大時，誤差減少，方差增大

C. 若 λ 較大時，誤差增大，方差減少

D. 若 λ 較大時，誤差增大，方差增大

答案：C

解析：若 λ 較大時，意味着模型複雜度較低，這時候容易發生欠擬合，對應誤差增大，方差減少。作個簡單總結：

λ 較小：誤差減少，方差增大，容易發生過擬合
λ 較大：誤差增大，方差減少，容易發生欠擬合

Q6. 假如使用一個較複雜的迴歸模型來擬合樣本數據，使用 Ridge 迴歸，調試正則化參數 λ，來下降模型複雜度。若 λ 較小時，關於誤差（bias）和方差（variance），下列說法正確的是？

A. 若 λ 較小時，誤差減少，方差減少

B. 若 λ 較小時，誤差減少，方差增大

C. 若 λ 較小時，誤差增大，方差減少

D. 若 λ 較小時，誤差增大，方差增大

答案：B

解析：見 Q5。

Q7. 下列關於 Ridge 迴歸，說法正確的是（多選）？

A. 若 λ=0，則等價於通常的線性迴歸

B. 若 λ=0，則不等價於通常的線性迴歸

C. 若 λ=+∞，則獲得的權重係數很小，接近於零

D. 若 λ=+∞，則獲得的權重係數很大，接近與無窮大

答案：AC

解析：若 λ=0，即沒有正則化項，等價於通常的線性迴歸，可使用最小二乘法求解係數。若 λ=+∞，正則化項對權重係數的「懲罰」很是大，對應獲得的權重係數很小，接近於零。

關於正則化的圖形化解釋，請參考個人這篇文章：

機器學習中 L1 和 L2 正則化的直觀解釋

Q8. 在下面給出的三個殘差圖中，下面哪個表明了與其餘模型相比更差的模型？

注意：

1. 全部的殘差都已經標準化

2. 圖中橫座標是預測值，縱座標是殘差

A. 1

B. 2

C. 3

D. 沒法比較

答案：C

解析：預測值與殘差之間不該該存在任何函數關係，若存在函數關係，代表模型擬合的效果並不很好。對應在圖中，若橫座標是預測值，縱座標是殘差，殘差應表現爲與預測值無關的隨機分佈。可是，圖 3 中殘差與預測值呈二次函數關係，代表該模型並不理想。

Q9. 下列哪種方法的係數沒有封閉形式（closed-form）的解？

A. Ridge 迴歸

B. Lasso

C. Ridge 迴歸和 Lasso

D. 以上都不是

答案：B

解析：Ridge 迴歸是通常的線性迴歸再加上 L2 正則項，它具備封閉形式的解，能夠基於最小二乘法求解。

J=\frac{1}{2m}\sum_{i=1}^m(y-\hat y)^2+\frac{\lambda}{2m}||w||^2

Lasso 迴歸是通常的線性迴歸再加上 L1 正則項，L1 正則項使解是非線性的，沒有封閉形式的解。

J=\frac{1}{2m}\sum_{i=1}^m(y-\hat y)^2+\frac{\lambda}{m}|w|

Q10. 觀察以下數據集：

刪除 a，b，c，d 哪一個點對擬合迴歸線的影響最大？

A. a

B. b

C. c

D. d

答案：D

解析：線性迴歸對數據中的離羣點比較敏感。雖然 c 點也是離羣點，但它接近與迴歸線，殘差較小。所以，d 點對擬合迴歸線的影響最大。

Q11. 在一個簡單的線性迴歸模型中（只有一個變量），若是將輸入變量改變一個單位（增長或減小），那麼輸出將改變多少？

A. 一個單位

B. 不變

C. 截距

D. 迴歸模型的尺度因子

答案：D

解析：很簡單，假設線性迴歸模型是：y=a+bx，若 x 改變一個單位，例如 x+1，則 y 改變 b 個單位。b 是迴歸模型的尺度因子。

Q12. 邏輯迴歸將輸出機率限定在 [0,1] 之間。下列哪一個函數起到這樣的做用？

A. Sigmoid 函數

B. tanh 函數

C. ReLU 函數

D. Leaky ReLU 函數

答案：A

解析：Sigmoid 函數的表達式和圖形以下所示：

Sigmoid 函數輸出值限定在 [0,1] 之間。

tanh 函數：

ReLU 函數：

Leaky ReLU 函數：

a=\left\{\begin{array}{cc}
\lambda z, & z\leq0\\
z, & z> 0
\end{array}\right.

其中，λ 爲可變參數，例如 λ=0.01。

Q13. 線性迴歸和邏輯迴歸中，關於損失函數對權重係數的偏導數，下列說法正確的是？

A. 二者不同

B. 二者同樣

C. 沒法肯定

答案：B

解析：線性迴歸的損失函數爲：

邏輯迴歸的損失函數爲：

J=-\frac{1}{2m}\sum_{i=1}^mylog\hat y+(1-y)log(1-\hat y)

邏輯迴歸輸出層包含了 Sigmoid 非線性函數，其損失函數對 Sigmoid 函數以前的線性輸出 Z 的偏導數與線性迴歸的損失函數對線性輸出 Z 的偏導數同樣，都是：

具體推導過程比較簡單，此處省略。

dZ 是同樣的，反向求導過程當中，對全部權重係數的偏導數表達式都是同樣的。

Q14. 假設使用邏輯迴歸進行 n 多類別分類，使用 One-vs-rest 分類法。下列說法正確的是？

A. 對於 n 類別，須要訓練 n 個模型

B. 對於 n 類別，須要訓練 n-1 個模型

C. 對於 n 類別，只須要訓練 1 個模型

D. 以上說法都不對

答案：A

解析：One-vs-rest 分類法中，假設有 n 個類別，那麼就會創建 n 個二項分類器，每一個分類器針對其中一個類別和剩餘類別進行分類。進行預測時，利用這 n個二項分類器進行分類，獲得數據屬於當前類的機率，選擇其中機率最大的一個類別做爲最終的預測結果。

舉個簡單的例子，3 分類，類別分別是 {-1, 0, 1}。構建 3 個二分類器：

-1 與 0，1
0 與 -1，1
1 與 -1，0

若第 1 個二分類器獲得 -1 的機率是 0.7，第 2 個二分類器獲得 0 的機率是 0.2，第 3 個二分類器獲得 1 的機率是 0.4，則最終預測的類別是 -1。

Q15. 下圖是兩個不一樣 β0、β1 對應的邏輯迴歸模型（綠色和黑色）：

關於兩個邏輯迴歸模型中的 β0、β1 值，下列說法正確的是？

注意：y= β0+β1*x， β0 是截距，β1 是權重係數。

A. 綠色模型的 β1 比黑色模型的 β1 大

B. 綠色模型的 β1 比黑色模型的 β1 小

C. 兩個模型的 β1 相同

D. 以上說法都不對

答案：B

解析：邏輯迴歸模型最終還要通過 Sigmoid 非線性函數，Sigmoid 是增函數，其圖形與上圖中的黑色模型相近。黑色模型是增函數，說明其 β1>0，綠色模型是減函數，說明其 β1<0。因此，得出結論：綠色模型的 β1 比黑色模型的 β1 小。

參考文獻：

https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。