機器學習筆試題精選(一)

紅色石頭的我的網站:redstonewill.com面試

機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工做崗位時,咱們經常會遇到各類各樣的機器學習問題和知識點。爲了幫助你們對這些知識點進行梳理和理解,以便可以更好地應對機器學習筆試包括面試。紅色石頭準備在公衆號連載一些機器學習筆試題系列文章,但願可以對你們有所幫助!機器學習

Q1. 在迴歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?函數

A. 多項式階數性能

B. 更新權重 w 時,使用的是矩陣求逆仍是梯度降低學習

C. 使用常數項測試

答案:A網站

解析:選擇合適的多項式階數很是重要。若是階數過大,模型就會更加複雜,容易發生過擬合;若是階數較小,模型就會過於簡單,容易發生欠擬合。若是有對過擬合和欠擬合概念不清楚的,見下圖所示:cdn

Q2. 假設你有如下數據:輸入和輸出都只有一個變量。使用線性迴歸模型(y=wx+b)來擬合數據。那麼使用留一法(Leave-One Out)交叉驗證獲得的均方偏差是多少?blog

A. 10/27圖片

B. 39/27

C. 49/27

D. 55/27

答案:C

解析:留一法,簡單來講就是假設有 N 個樣本,將每個樣本做爲測試樣本,其它 N-1 個樣本做爲訓練樣本。這樣獲得 N 個分類器,N 個測試結果。用這 N個結果的平均值來衡量模型的性能。

對於該題,咱們先畫出 3 個樣本點的座標:

使用兩個點進行線性擬合,分紅三種狀況,以下圖所示:

第一種狀況下,迴歸模型是 y = 2,偏差 E1 = 1。

第二種狀況下,迴歸模型是 y = -x + 4,偏差 E2 = 2。

第三種狀況下,迴歸模型是 y = -1/3x + 2,偏差 E3 = 2/3。

則總的均方偏差爲:

MSE=\frac13(E_1^2+E_2^2+E_3^2)=\frac13(1^2+2^2+(\frac23)^2)=\frac{49}{27}

Q3. 下列關於極大似然估計(Maximum Likelihood Estimate,MLE),說法正確的是(多選)?

A. MLE 可能並不存在

B. MLE 老是存在

C. 若是 MLE 存在,那麼它的解可能不是惟一的

D. 若是 MLE 存在,那麼它的解必定是惟一的

答案:AC

解析:若是極大似然函數 L(θ) 在極大值處不連續,一階導數不存在,則 MLE 不存在,以下圖所示:

另外一種狀況是 MLE 並不惟一,極大值對應兩個 θ。以下圖所示:

Q4. 若是咱們說「線性迴歸」模型完美地擬合了訓練樣本(訓練樣本偏差爲零),則下面哪一個說法是正確的?

A. 測試樣本偏差始終爲零

B. 測試樣本偏差不可能爲零

C. 以上答案都不對

答案:C

解析:根據訓練樣本偏差爲零,沒法推斷測試樣本偏差是否爲零。值得一提是,若是測試樣本樣本很大,則極可能發生過擬合,模型不具有很好的泛化能力!

Q5. 在一個線性迴歸問題中,咱們使用 R 平方(R-Squared)來判斷擬合度。此時,若是增長一個特徵,模型不變,則下面說法正確的是?

A. 若是 R-Squared 增長,則這個特徵有意義

B. 若是R-Squared 減少,則這個特徵沒有意義

C. 僅看 R-Squared 單一變量,沒法肯定這個特徵是否有意義。

D. 以上說法都不對

答案:C

解析:線性迴歸問題中,R-Squared 是用來衡量回歸方程與真實樣本輸出之間的類似程度。其表達式以下所示:

上式中,分子部分表示真實值與預測值的平方差之和,相似於均方差 MSE;分母部分表示真實值與均值的平方差之和,相似於方差 Var。根據 R-Squared 的取值,來判斷模型的好壞:若是結果是 0,說明模型擬合效果不好;若是結果是 1,說明模型無錯誤。通常來講,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準,由於,隨着樣本數量的增長,R-Square必然增長,沒法真正定量說明準確程度,只能大概定量。

對於本題來講,單獨看 R-Squared,並不能推斷出增長的特徵是否有意義。一般來講,增長一個特徵,R-Squared 可能變大也可能保持不變,二者不必定呈正相關。

若是使用校訂決定係數(Adjusted R-Square):

其中,n 是樣本數量,p 是特徵數量。Adjusted R-Square 抵消樣本數量對 R-Square的影響,作到了真正的 0~1,越大越好。

Q6. 下列關於線性迴歸分析中的殘差(Residuals)說法正確的是?

A. 殘差均值老是爲零

B. 殘差均值老是小於零

C. 殘差均值老是大於零

D. 以上說法都不對

答案:A

解析:線性迴歸分析中,目標是殘差最小化。殘差平方和是關於參數的函數,爲了求殘差極小值,令殘差關於參數的偏導數爲零,會獲得殘差和爲零,即殘差均值爲零。

Q7. 下列關於異方差(Heteroskedasticity)說法正確的是?

A. 線性迴歸具備不一樣的偏差項

B. 線性迴歸具備相同的偏差項

C. 線性迴歸偏差項爲零

D. 以上說法都不對

答案:A

解析:異方差性是相對於同方差(Homoskedasticity)而言的。所謂同方差,是爲了保證迴歸參數估計量具備良好的統計性質,經典線性迴歸模型的一個重要假定:整體迴歸函數中的隨機偏差項知足同方差性,即它們都有相同的方差。若是這一假定不知足,即:隨機偏差項具備不一樣的方差,則稱線性迴歸模型存在異方差性。

一般來講,奇異值的出現會致使異方差性增大。

Q8. 下列哪一項能反映出 X 和 Y 之間的強相關性?

A. 相關係數爲 0.9

B. 對於無效假設 β=0 的 p 值爲 0.0001

C. 對於無效假設 β=0 的 t 值爲 30

D. 以上說法都不對

答案:A

解析:相關係數的概念咱們很熟悉,它反映了不一樣變量之間線性相關程度,通常用 r 表示。

r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}

其中,Cov(X,Y) 爲 X 與 Y 的協方差,Var[X] 爲 X 的方差,Var[Y] 爲 Y 的方差。r 取值範圍在 [-1,1] 之間,r 越大表示相關程度越高。A 選項中,r=0.9 表示 X 和 Y 之間有較強的相關性。

而 p 和 t 的數值大小沒有統計意義,只是將其與某一個閾值進行比對,以獲得二選一的結論。例如,有兩個假設:

  • 無效假設(null hypothesis)H0:兩參量間不存在「線性」相關。

  • 備擇假設(alternative hypothesis)H1:兩參量間存在「線性」相關。

若是閾值是 0.05,計算出的 p 值很小,好比爲 0.001,則能夠說「有很是顯著的證據拒絕 H0 假設,相信 H1 假設。即兩參量間存在「線性」相關。p 值只用於二值化判斷,所以不能說 p=0.06 必定比 p=0.07 更好。

Q9. 下列哪些假設是咱們推導線性迴歸參數時遵循的(多選)?

A. X 與 Y 有線性關係(多項式關係)

B. 模型偏差在統計學上是獨立的

C. 偏差通常服從 0 均值和固定標準差的正態分佈

D. X 是非隨機且測量沒有偏差的

答案:ABCD

解析:在進行線性迴歸推導和分析時,咱們已經默認上述四個條件是成立的。

Q10. 爲了觀察測試 Y 與 X 之間的線性關係,X 是連續變量,使用下列哪一種圖形比較適合?

A. 散點圖

B. 柱形圖

C. 直方圖

D. 以上都不對

答案:A

解析:散點圖反映了兩個變量之間的相互關係,在測試 Y 與 X 之間的線性關係時,使用散點圖最爲直觀。

Q11. 通常來講,下列哪一種方法經常使用來預測連續獨立變量?

A. 線性迴歸

B. 邏輯回顧

C. 線性迴歸和邏輯迴歸都行

D. 以上說法都不對

答案:A

解析:線性迴歸通常用於實數預測,邏輯迴歸通常用於分類問題。

Q12. 我的健康和年齡的相關係數是 -1.09。根據這個你能夠告訴醫生哪一個結論?

A. 年齡是健康程度很好的預測器

B. 年齡是健康程度很糟的預測器

C. 以上說法都不對

答案:C

解析:由於相關係數的範圍是 [-1,1] 之間,因此,-1.09 不可能存在。

Q13. 下列哪種偏移,是咱們在最小二乘直線擬合的狀況下使用的?圖中橫座標是輸入 X,縱座標是輸出 Y。

A. 垂直偏移(vertical offsets)

B. 垂向偏移(perpendicular offsets)

C. 兩種偏移均可以

D. 以上說法都不對

答案:A

解析:線性迴歸模型計算損失函數,例如均方差損失函數時,使用的都是 vertical offsets。perpendicular offsets 通常用於主成分分析(PCA)中。

Q14. 假如咱們利用 Y 是 X 的 3 階多項式產生一些數據(3 階多項式能很好地擬合數據)。那麼,下列說法正確的是(多選)?

A. 簡單的線性迴歸容易形成高誤差(bias)、低方差(variance)

B. 簡單的線性迴歸容易形成低誤差(bias)、高方差(variance)

C. 3 階多項式擬合會形成低誤差(bias)、高方差(variance)

D. 3 階多項式擬合具有低誤差(bias)、低方差(variance)

答案:AD

解析:誤差和方差是兩個相對的概念,就像欠擬合和過擬合同樣。若是模型過於簡單,一般會形成欠擬合,伴隨着高誤差、低方差;若是模型過於複雜,一般會形成過擬合,伴隨着低誤差、高方差。

用一張圖來形象地表示誤差與方差的關係:

圖片來源:https://www.zhihu.com/question/27068705

誤差(bias)能夠當作模型預測與真實樣本的差距,想要獲得 low bias,就得複雜化模型,可是容易形成過擬合。方差(variance)能夠當作模型在測試集上的表現,想要獲得 low variance,就得簡化模型,可是容易形成欠擬合。實際應用中,誤差和方差是須要權衡的。若模型在訓練樣本和測試集上都表現的不錯,誤差和方差都會比較小,這也是模型比較理想的狀況。

Q15. 假如你在訓練一個線性迴歸模型,有下面兩句話:

1. 若是數據量較少,容易發生過擬合。

2. 若是假設空間較小,容易發生過擬合。

關於這兩句話,下列說法正確的是?

A. 1 和 2 都錯誤

B. 1 正確,2 錯誤

C. 1 錯誤,2 正確

D. 1 和 2 都正確

答案:B

解析:先來看第 1 句話,若是數據量較少,容易在假設空間找到一個模型對訓練樣本的擬合度很好,容易形成過擬合,該模型不具有良好的泛化能力。

再來看第 2 句話,若是假設空間較小,包含的可能的模型就比較少,也就不太可能找到一個模型可以對樣本擬合得很好,容易形成高誤差、低方差,即欠擬合。

參考文獻:

https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/

相關文章
相關標籤/搜索