紅色石頭的我的網站:redstonewill.compython
往期回顧:面試
機器學習筆試題精選(一)機器學習
機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工做崗位時,咱們經常會遇到各類各樣的機器學習問題和知識點。爲了幫助你們對這些知識點進行梳理和理解,以便可以更好地應對機器學習筆試包括面試。紅色石頭準備在公衆號連載一些機器學習筆試題系列文章,但願可以對你們有所幫助!學習
Q1. 關於「迴歸(Regression)」和「相關(Correlation)」,下列說法正確的是?注意:x 是自變量,y 是因變量。網站
A. 迴歸和相關在 x 和 y 之間都是互爲對稱的spa
B. 迴歸和相關在 x 和 y 之間都是非對稱的.net
C. 迴歸在 x 和 y 之間是非對稱的,相關在 x 和 y 之間是互爲對稱的3d
D. 迴歸在 x 和 y 之間是對稱的,相關在 x 和 y 之間是非對稱的調試
答案:C
解析:相關(Correlation)是計算兩個變量的線性相關程度,是對稱的。也就是說,x 與 y 的相關係數和 y 與 x 的相關係數是同樣的,沒有差異。
迴歸(Regression)通常是利用 特徵 x 預測輸出 y,是單向的、非對稱的。
Q2. 僅僅知道變量的均值(Mean)和中值(Median),能計算的到變量的偏斜度(Skewness)嗎?
A. 能夠
B. 不能夠
答案:B
解析:偏斜度是對統計數據分佈偏斜方向及程度的度量。偏斜度是利用 3 階矩定義的,其計算公式以下:
其中,n 是樣本數量。統計數據的頻數分佈有的是對稱的,有的是不對稱的,即呈現偏態。在偏態分佈中,當偏斜度爲正值時,分佈正偏,即衆數位於算術平均數的左側;當偏斜度爲負值時,分佈負偏,即衆數位於算術平均數的右側。
咱們能夠利用衆數、中位數和算術平均數之間的關係判斷分佈是左偏態仍是右偏態,但要度量分佈偏斜的程度,就須要計算偏斜度了。
Q3. 假設有 n 組數據集,每組數據集中,x 的平均值都是 9,x 的方差都是 11,y 的平均值都是 7.50,x 與 y 的相關係數都是 0.816,擬合的線性迴歸方程都是 y = 3.00 + 0.500*x。那麼這 n 組數據集是否同樣?
A. 同樣
B. 不同
C. 沒法肯定
答案:C
解析:這裏須要知道的是 Anscombe's quartet。1973年,統計學家F.J. Anscombe 構造出了四組奇特的數據。這四組數據中,x 值的平均數都是 9.0,y 值的平均數都是 7.5;x 值的方差都是 10.0,y值的方差都是 3.75;它們的相關度都是 0.816,線性迴歸線都是 y=3+0.5x。單從這些統計數字上看來,四組數據所反映出的實際狀況很是相近,而事實上,這四組數據有着天壤之別,以下圖所示:
相應的 Python 代碼爲:
import seaborn as sns
sns.set(style="ticks")
# Load the example dataset for Anscombe's quartet
df = sns.load_dataset("anscombe")
# Show the results of a linear regression within each dataset
sns.lmplot(x="x", y="y", col="dataset", hue="dataset", data=df,
col_wrap=2, ci=None, palette="muted", size=4,
scatter_kws={"s": 50, "alpha": 1})
複製代碼
Q4. 觀察樣本次數如何影響過擬合(多選)?注意:全部狀況的參數都保持一致。
A. 觀察次數少,容易發生過擬合
B. 觀察次數少,不容易發生過擬合
C. 觀察次數多,容易發生過擬合
D. 觀察次數多,不容易發生過擬合
答案:AD
解析:若是樣本觀察次數較少,且樣本數量較少,經過提升模型複雜度,例如多項式階數,很容易對全部樣本點都擬合的很是好,形成過擬合。可是,若是觀察次數多,樣本更具備表明性,這時候,即便模型複雜,也不容易發生過擬合,獲得的模型可以較真實地反映真實的數據分佈。
Q5. 假如使用一個較複雜的迴歸模型來擬合樣本數據,使用 Ridge 迴歸,調試正則化參數 λ,來下降模型複雜度。若 λ 較大時,關於誤差(bias)和方差(variance),下列說法正確的是?
A. 若 λ 較大時,誤差減少,方差減少
B. 若 λ 較大時,誤差減少,方差增大
C. 若 λ 較大時,誤差增大,方差減少
D. 若 λ 較大時,誤差增大,方差增大
答案:C
解析:若 λ 較大時,意味着模型複雜度較低,這時候容易發生欠擬合,對應誤差增大,方差減少。作個簡單總結:
λ 較小:誤差減少,方差增大,容易發生過擬合
λ 較大:誤差增大,方差減少,容易發生欠擬合
Q6. 假如使用一個較複雜的迴歸模型來擬合樣本數據,使用 Ridge 迴歸,調試正則化參數 λ,來下降模型複雜度。若 λ 較小時,關於誤差(bias)和方差(variance),下列說法正確的是?
A. 若 λ 較小時,誤差減少,方差減少
B. 若 λ 較小時,誤差減少,方差增大
C. 若 λ 較小時,誤差增大,方差減少
D. 若 λ 較小時,誤差增大,方差增大
答案:B
解析:見 Q5。
Q7. 下列關於 Ridge 迴歸,說法正確的是(多選)?
A. 若 λ=0,則等價於通常的線性迴歸
B. 若 λ=0,則不等價於通常的線性迴歸
C. 若 λ=+∞,則獲得的權重係數很小,接近於零
D. 若 λ=+∞,則獲得的權重係數很大,接近與無窮大
答案:AC
解析:若 λ=0,即沒有正則化項,等價於通常的線性迴歸,可使用最小二乘法求解係數。若 λ=+∞,正則化項對權重係數的「懲罰」很是大,對應獲得的權重係數很小,接近於零。
關於正則化的圖形化解釋,請參考個人這篇文章:
Q8. 在下面給出的三個殘差圖中,下面哪個表明了與其餘模型相比更差的模型?
注意:
1. 全部的殘差都已經標準化
2. 圖中橫座標是預測值,縱座標是殘差
A. 1
B. 2
C. 3
D. 沒法比較
答案:C
解析:預測值與殘差之間不該該存在任何函數關係,若存在函數關係,代表模型擬合的效果並不很好。對應在圖中,若橫座標是預測值,縱座標是殘差,殘差應表現爲與預測值無關的隨機分佈。可是,圖 3 中殘差與預測值呈二次函數關係,代表該模型並不理想。
Q9. 下列哪種方法的係數沒有封閉形式(closed-form)的解?
A. Ridge 迴歸
B. Lasso
C. Ridge 迴歸和 Lasso
D. 以上都不是
答案:B
解析:Ridge 迴歸是通常的線性迴歸再加上 L2 正則項,它具備封閉形式的解,能夠基於最小二乘法求解。
Lasso 迴歸是通常的線性迴歸再加上 L1 正則項,L1 正則項使解是非線性的,沒有封閉形式的解。
Q10. 觀察以下數據集:
刪除 a,b,c,d 哪一個點對擬合迴歸線的影響最大?
A. a
B. b
C. c
D. d
答案:D
解析:線性迴歸對數據中的離羣點比較敏感。雖然 c 點也是離羣點,但它接近與迴歸線,殘差較小。所以,d 點對擬合迴歸線的影響最大。
Q11. 在一個簡單的線性迴歸模型中(只有一個變量),若是將輸入變量改變一個單位(增長或減小),那麼輸出將改變多少?
A. 一個單位
B. 不變
C. 截距
D. 迴歸模型的尺度因子
答案:D
解析:很簡單,假設線性迴歸模型是:y=a+bx,若 x 改變一個單位,例如 x+1,則 y 改變 b 個單位。b 是迴歸模型的尺度因子。
Q12. 邏輯迴歸將輸出機率限定在 [0,1] 之間。下列哪一個函數起到這樣的做用?
A. Sigmoid 函數
B. tanh 函數
C. ReLU 函數
D. Leaky ReLU 函數
答案:A
解析:Sigmoid 函數的表達式和圖形以下所示:
Sigmoid 函數輸出值限定在 [0,1] 之間。
tanh 函數:
ReLU 函數:
Leaky ReLU 函數:
其中,λ 爲可變參數,例如 λ=0.01。
Q13. 線性迴歸和邏輯迴歸中,關於損失函數對權重係數的偏導數,下列說法正確的是?
A. 二者不同
B. 二者同樣
C. 沒法肯定
答案:B
解析:線性迴歸的損失函數爲:
邏輯迴歸的損失函數爲:
邏輯迴歸輸出層包含了 Sigmoid 非線性函數,其損失函數對 Sigmoid 函數以前的線性輸出 Z 的偏導數與線性迴歸的損失函數對線性輸出 Z 的偏導數同樣,都是:
具體推導過程比較簡單,此處省略。
dZ 是同樣的,反向求導過程當中,對全部權重係數的偏導數表達式都是同樣的。
Q14. 假設使用邏輯迴歸進行 n 多類別分類,使用 One-vs-rest 分類法。下列說法正確的是?
A. 對於 n 類別,須要訓練 n 個模型
B. 對於 n 類別,須要訓練 n-1 個模型
C. 對於 n 類別,只須要訓練 1 個模型
D. 以上說法都不對
答案:A
解析:One-vs-rest 分類法中,假設有 n 個類別,那麼就會創建 n 個二項分類器,每一個分類器針對其中一個類別和剩餘類別進行分類。進行預測時,利用這 n個二項分類器進行分類,獲得數據屬於當前類的機率,選擇其中機率最大的一個類別做爲最終的預測結果。
舉個簡單的例子,3 分類,類別分別是 {-1, 0, 1}。構建 3 個 二分類器:
-1 與 0,1
0 與 -1,1
1 與 -1,0
若第 1 個二分類器獲得 -1 的機率是 0.7,第 2 個二分類器獲得 0 的機率是 0.2,第 3 個二分類器獲得 1 的 機率是 0.4,則最終預測的類別是 -1。
Q15. 下圖是兩個不一樣 β0、β1 對應的邏輯迴歸模型(綠色和黑色):
關於兩個邏輯迴歸模型中的 β0、β1 值,下列說法正確的是?
注意:y= β0+β1*x, β0 是截距,β1 是權重係數。
A. 綠色模型的 β1 比黑色模型的 β1 大
B. 綠色模型的 β1 比黑色模型的 β1 小
C. 兩個模型的 β1 相同
D. 以上說法都不對
答案:B
解析:邏輯迴歸模型最終還要通過 Sigmoid 非線性函數,Sigmoid 是增函數,其圖形與上圖中的黑色模型相近。黑色模型是增函數,說明其 β1>0,綠色模型是減函數,說明其 β1<0。因此,得出結論:綠色模型的 β1 比黑色模型的 β1 小。
參考文獻:
https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/