紅色石頭的我的網站:redstonewill.com面試
機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工做崗位時,咱們經常會遇到各類各樣的機器學習問題和知識點。爲了幫助你們對這些知識點進行梳理和理解,以便可以更好地應對機器學習筆試包括面試。紅色石頭準備在公衆號連載一些機器學習筆試題系列文章,但願可以對你們有所幫助!機器學習
Q1. 在迴歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?函數
A. 多項式階數性能
B. 更新權重 w 時,使用的是矩陣求逆仍是梯度降低學習
C. 使用常數項測試
答案:A網站
解析:選擇合適的多項式階數很是重要。若是階數過大,模型就會更加複雜,容易發生過擬合;若是階數較小,模型就會過於簡單,容易發生欠擬合。若是有對過擬合和欠擬合概念不清楚的,見下圖所示:cdn
Q2. 假設你有如下數據:輸入和輸出都只有一個變量。使用線性迴歸模型(y=wx+b)來擬合數據。那麼使用留一法(Leave-One Out)交叉驗證獲得的均方偏差是多少?blog
A. 10/27圖片
B. 39/27
C. 49/27
D. 55/27
答案:C
解析:留一法,簡單來講就是假設有 N 個樣本,將每個樣本做爲測試樣本,其它 N-1 個樣本做爲訓練樣本。這樣獲得 N 個分類器,N 個測試結果。用這 N個結果的平均值來衡量模型的性能。
對於該題,咱們先畫出 3 個樣本點的座標:
使用兩個點進行線性擬合,分紅三種狀況,以下圖所示:
第一種狀況下,迴歸模型是 y = 2,偏差 E1 = 1。
第二種狀況下,迴歸模型是 y = -x + 4,偏差 E2 = 2。
第三種狀況下,迴歸模型是 y = -1/3x + 2,偏差 E3 = 2/3。
則總的均方偏差爲:
Q3. 下列關於極大似然估計(Maximum Likelihood Estimate,MLE),說法正確的是(多選)?
A. MLE 可能並不存在
B. MLE 老是存在
C. 若是 MLE 存在,那麼它的解可能不是惟一的
D. 若是 MLE 存在,那麼它的解必定是惟一的
答案:AC
解析:若是極大似然函數 L(θ) 在極大值處不連續,一階導數不存在,則 MLE 不存在,以下圖所示:
另外一種狀況是 MLE 並不惟一,極大值對應兩個 θ。以下圖所示:
Q4. 若是咱們說「線性迴歸」模型完美地擬合了訓練樣本(訓練樣本偏差爲零),則下面哪一個說法是正確的?
A. 測試樣本偏差始終爲零
B. 測試樣本偏差不可能爲零
C. 以上答案都不對
答案:C
解析:根據訓練樣本偏差爲零,沒法推斷測試樣本偏差是否爲零。值得一提是,若是測試樣本樣本很大,則極可能發生過擬合,模型不具有很好的泛化能力!
Q5. 在一個線性迴歸問題中,咱們使用 R 平方(R-Squared)來判斷擬合度。此時,若是增長一個特徵,模型不變,則下面說法正確的是?
A. 若是 R-Squared 增長,則這個特徵有意義
B. 若是R-Squared 減少,則這個特徵沒有意義
C. 僅看 R-Squared 單一變量,沒法肯定這個特徵是否有意義。
D. 以上說法都不對
答案:C
解析:線性迴歸問題中,R-Squared 是用來衡量回歸方程與真實樣本輸出之間的類似程度。其表達式以下所示:
上式中,分子部分表示真實值與預測值的平方差之和,相似於均方差 MSE;分母部分表示真實值與均值的平方差之和,相似於方差 Var。根據 R-Squared 的取值,來判斷模型的好壞:若是結果是 0,說明模型擬合效果不好;若是結果是 1,說明模型無錯誤。通常來講,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準,由於,隨着樣本數量的增長,R-Square必然增長,沒法真正定量說明準確程度,只能大概定量。
對於本題來講,單獨看 R-Squared,並不能推斷出增長的特徵是否有意義。一般來講,增長一個特徵,R-Squared 可能變大也可能保持不變,二者不必定呈正相關。
若是使用校訂決定係數(Adjusted R-Square):
其中,n 是樣本數量,p 是特徵數量。Adjusted R-Square 抵消樣本數量對 R-Square的影響,作到了真正的 0~1,越大越好。
Q6. 下列關於線性迴歸分析中的殘差(Residuals)說法正確的是?
A. 殘差均值老是爲零
B. 殘差均值老是小於零
C. 殘差均值老是大於零
D. 以上說法都不對
答案:A
解析:線性迴歸分析中,目標是殘差最小化。殘差平方和是關於參數的函數,爲了求殘差極小值,令殘差關於參數的偏導數爲零,會獲得殘差和爲零,即殘差均值爲零。
Q7. 下列關於異方差(Heteroskedasticity)說法正確的是?
A. 線性迴歸具備不一樣的偏差項
B. 線性迴歸具備相同的偏差項
C. 線性迴歸偏差項爲零
D. 以上說法都不對
答案:A
解析:異方差性是相對於同方差(Homoskedasticity)而言的。所謂同方差,是爲了保證迴歸參數估計量具備良好的統計性質,經典線性迴歸模型的一個重要假定:整體迴歸函數中的隨機偏差項知足同方差性,即它們都有相同的方差。若是這一假定不知足,即:隨機偏差項具備不一樣的方差,則稱線性迴歸模型存在異方差性。
一般來講,奇異值的出現會致使異方差性增大。
Q8. 下列哪一項能反映出 X 和 Y 之間的強相關性?
A. 相關係數爲 0.9
B. 對於無效假設 β=0 的 p 值爲 0.0001
C. 對於無效假設 β=0 的 t 值爲 30
D. 以上說法都不對
答案:A
解析:相關係數的概念咱們很熟悉,它反映了不一樣變量之間線性相關程度,通常用 r 表示。
其中,Cov(X,Y) 爲 X 與 Y 的協方差,Var[X] 爲 X 的方差,Var[Y] 爲 Y 的方差。r 取值範圍在 [-1,1] 之間,r 越大表示相關程度越高。A 選項中,r=0.9 表示 X 和 Y 之間有較強的相關性。
而 p 和 t 的數值大小沒有統計意義,只是將其與某一個閾值進行比對,以獲得二選一的結論。例如,有兩個假設:
無效假設(null hypothesis)H0:兩參量間不存在「線性」相關。
備擇假設(alternative hypothesis)H1:兩參量間存在「線性」相關。
若是閾值是 0.05,計算出的 p 值很小,好比爲 0.001,則能夠說「有很是顯著的證據拒絕 H0 假設,相信 H1 假設。即兩參量間存在「線性」相關。p 值只用於二值化判斷,所以不能說 p=0.06 必定比 p=0.07 更好。
Q9. 下列哪些假設是咱們推導線性迴歸參數時遵循的(多選)?
A. X 與 Y 有線性關係(多項式關係)
B. 模型偏差在統計學上是獨立的
C. 偏差通常服從 0 均值和固定標準差的正態分佈
D. X 是非隨機且測量沒有偏差的
答案:ABCD
解析:在進行線性迴歸推導和分析時,咱們已經默認上述四個條件是成立的。
Q10. 爲了觀察測試 Y 與 X 之間的線性關係,X 是連續變量,使用下列哪一種圖形比較適合?
A. 散點圖
B. 柱形圖
C. 直方圖
D. 以上都不對
答案:A
解析:散點圖反映了兩個變量之間的相互關係,在測試 Y 與 X 之間的線性關係時,使用散點圖最爲直觀。
Q11. 通常來講,下列哪一種方法經常使用來預測連續獨立變量?
A. 線性迴歸
B. 邏輯回顧
C. 線性迴歸和邏輯迴歸都行
D. 以上說法都不對
答案:A
解析:線性迴歸通常用於實數預測,邏輯迴歸通常用於分類問題。
Q12. 我的健康和年齡的相關係數是 -1.09。根據這個你能夠告訴醫生哪一個結論?
A. 年齡是健康程度很好的預測器
B. 年齡是健康程度很糟的預測器
C. 以上說法都不對
答案:C
解析:由於相關係數的範圍是 [-1,1] 之間,因此,-1.09 不可能存在。
Q13. 下列哪種偏移,是咱們在最小二乘直線擬合的狀況下使用的?圖中橫座標是輸入 X,縱座標是輸出 Y。
A. 垂直偏移(vertical offsets)
B. 垂向偏移(perpendicular offsets)
C. 兩種偏移均可以
D. 以上說法都不對
答案:A
解析:線性迴歸模型計算損失函數,例如均方差損失函數時,使用的都是 vertical offsets。perpendicular offsets 通常用於主成分分析(PCA)中。
Q14. 假如咱們利用 Y 是 X 的 3 階多項式產生一些數據(3 階多項式能很好地擬合數據)。那麼,下列說法正確的是(多選)?
A. 簡單的線性迴歸容易形成高誤差(bias)、低方差(variance)
B. 簡單的線性迴歸容易形成低誤差(bias)、高方差(variance)
C. 3 階多項式擬合會形成低誤差(bias)、高方差(variance)
D. 3 階多項式擬合具有低誤差(bias)、低方差(variance)
答案:AD
解析:誤差和方差是兩個相對的概念,就像欠擬合和過擬合同樣。若是模型過於簡單,一般會形成欠擬合,伴隨着高誤差、低方差;若是模型過於複雜,一般會形成過擬合,伴隨着低誤差、高方差。
用一張圖來形象地表示誤差與方差的關係:
圖片來源:https://www.zhihu.com/question/27068705
誤差(bias)能夠當作模型預測與真實樣本的差距,想要獲得 low bias,就得複雜化模型,可是容易形成過擬合。方差(variance)能夠當作模型在測試集上的表現,想要獲得 low variance,就得簡化模型,可是容易形成欠擬合。實際應用中,誤差和方差是須要權衡的。若模型在訓練樣本和測試集上都表現的不錯,誤差和方差都會比較小,這也是模型比較理想的狀況。
Q15. 假如你在訓練一個線性迴歸模型,有下面兩句話:
1. 若是數據量較少,容易發生過擬合。
2. 若是假設空間較小,容易發生過擬合。
關於這兩句話,下列說法正確的是?
A. 1 和 2 都錯誤
B. 1 正確,2 錯誤
C. 1 錯誤,2 正確
D. 1 和 2 都正確
答案:B
解析:先來看第 1 句話,若是數據量較少,容易在假設空間找到一個模型對訓練樣本的擬合度很好,容易形成過擬合,該模型不具有良好的泛化能力。
再來看第 2 句話,若是假設空間較小,包含的可能的模型就比較少,也就不太可能找到一個模型可以對樣本擬合得很好,容易形成高誤差、低方差,即欠擬合。
參考文獻:
https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/