測試數據科學家進行機器學習的40個問題

做者|ANKIT GUPTA
編譯|Flin
來源|analyticsvidhya算法

介紹

機器學習是近來最受歡迎的技能之一。咱們組織了各類技能測試,以便數據科學家能夠檢查本身的這些關鍵技能。這些測試包括機器學習,深度學習,時間序列問題和機率。本文將爲機器學習技能測試提供解決方案。若是你錯過了上述任何一項技能測試,仍然能夠經過下面的連接查看問題和答案。網絡

在機器學習技能測試中,有1350多人報名參加了該測試。該測試旨在測試你是否掌握了機器學習中的概念知識。若是你錯過了實時測試,仍然能夠閱讀本文,並瞭解如何正確回答這些問題。測試

這是全部參與者的排行榜排名。優化

這些問題,以及其餘數百個問題,都是咱們「Ace數據科學訪談」課程(https://courses.analyticsvidh...) 的一部分。這是一個綜合指南,有大量的資源。若是你剛剛開始你的數據科學之旅,那麼看看咱們最受歡迎的課程——「數據科學導論」!(https://courses.analyticsvidh...編碼

總分

如下是分佈得分,它們將幫助你評估本身的成績。spa

你能夠在此處(https://datahack.analyticsvid...) 訪問最終成績。超過210人蔘加了技能測試,得到的最高分是36。如下是有關分數的一些統計數據。

平均得分:19.36

中位數得分:21

模式得分:27

有用的資源

問題與解決方案

問題背景

特徵F1表明大學學生的等級,能夠取特定值:A,B,C,D,E和F。

1)在如下狀況下,如下哪一項是正確的?

A)特徵F1是定類變量的示例。
B)特徵F1是定序變量的示例。
C)它不屬於上述任何類別。
D)這兩個都是

解決方案:(B)

定序變量是在其類別中具備某些順序的變量。例如,應將A級視爲比B級更高的等級。

2)如下哪一個是肯定性算法的示例?

A)PCA

B)K-Means

C)以上都不是

解決方案:(A)

肯定性算法是在不一樣的運行中,其輸出不會改變的算法。若是咱們再次運行,PCA會給出相同的結果,但K-Means不會。

3) [對或錯]兩個變量之間的皮爾遜相關性爲零,但它們的值仍然能夠彼此相關。

A)對

B)錯

解決方案:(A)

Y = X2。請注意,它們不只相關,並且一個變量是另外一個變量的函數,而且它們之間的皮爾遜相關性爲零。

4)對於梯度降低(GD)和隨機梯度降低(SGD),如下哪一個陳述是正確的?

  1. 在GD和SGD中,你以迭代方式更新一組參數以最小化偏差函數。
  2. 在SGD中,你必須遍歷訓練集中的全部樣本,才能在每次迭代中一次更新參數。
  3. 在GD中,你可使用整個數據或訓練數據的子集在每次迭代中更新參數。

A)僅1

B)只有2

C)只有3

D)1和2

E)2和3

F)1,2和3

解決方案:(A)

在每次迭代的SGD中,一般選擇包含隨機數據樣本的批次,但對於GD,每次迭代均包含全部訓練觀測值。

5)下列哪一個超參數增長時,可能會致使隨機森林過分擬合數據?

  1. 樹數
  2. 樹深
  3. 學習率

A)僅1

B)只有2

C)只有3

D)1和2

E)2和3

F)1, 2和3

解決方案:(B)

一般,若是咱們增長樹的深度,將致使過分擬合。學習率不是隨機森林中的超參數。樹的數量增長將致使擬合不足。

6)想象一下,你正在使用「 Analytics Vidhya」,而且你想開發一種機器學習算法,該算法能夠預測文章的觀看次數。

你的分析基於諸如做者姓名,同一位做者過去在Analytics Vidhya上撰寫的文章數之類的特徵以及其餘一些特徵。在這種狀況下,你會選擇如下哪一個評估指標?

  1. 均方偏差
  2. 準確性
  3. F1分數

A)僅1

B)只有2

C)只有3

D)1和3

E)2和3

F)1和2

解決方案:(A)

能夠認爲文章的觀看次數是屬於迴歸問題的連續目標變量。所以,均方偏差將被用做評估指標。

7)下面給出了三個圖像(1,2,3)。如下哪一個選項對這些圖像正確?

A)

B)

C)

A)1是tanh,2是ReLU,3是SIGMOID激活函數。

B)1是SIGMOID,2是ReLU,3是tanh激活函數。

C)1是ReLU,2是tanh,3是SIGMOID激活函數。

D)1是tanh,2是SIGMOID,3是ReLU激活函數。

解決方案:(D)

SIGMOID函數的範圍是[0,1]。

tanh函數的範圍是[-1,1]。

RELU函數的範圍是[0,infinity]。

所以,選項D是正確的答案。

8)如下是訓練文件中目標變量的8個實際值。

[0,0,0,1,1,1,1,1]

目標變量的熵是多少?

A) -(5/8 log(5/8) + 3/8 log(3/8))

B) 5/8 log(5/8) + 3/8 log(3/8)

C) 3/8 log(5/8) + 5/8 log(3/8)

D) 5/8 log(3/8) – 3/8 log(5/8)

解決方案:(A)

熵的公式是

因此答案是A。

9)假設你正在使用分類特徵,但還沒有查看測試數據中分類變量的分佈。你要在分類特徵上應用獨熱編碼(OHE)。若是將OHE應用於訓練數據集的分類變量,可能會面臨哪些挑戰?

A)分類變量的全部類別都不在測試數據集中。

B)與測試數據集相比,類別中的頻率分佈在訓練集中有所不一樣。

C)訓練集和測試集始終具備相同的分佈。

D)A和B

E)這些都不是

解決方案:(D)

二者都是正確的,OHE將沒法對測試集中存在但不在訓練集中的類別進行編碼,所以這多是應用OHE時的主要挑戰之一。若是在訓練和測試中的頻率分佈不相同,則選項B中的挑戰也確實存在,你在應用OHE時須要更加當心。

10)Skip gram模型是Word2vec算法中用於詞嵌入的最佳模型之一。下列哪一個模型描述了Skip gram模型?

A)A

B)B

C)A和B

D)這些都不是

解決方案:(B)

Word2vec算法中使用了兩個模型(model1和model2)。model1表明CBOW模型,而Model2表明Skip gram模型。

11)假設你正在神經網絡的隱藏層中使用激活函數X。對於任何給定的輸入,在特定的神經元處,你獲得的輸出爲「 -0.0001」。X能夠表明如下哪一個激活函數?

A) ReLU

B) tanh

C) SIGMOID

D)這些都不是

解決方案:(B)

該函數爲tanh,由於此函數的輸出範圍在(-1,-1)之間。

12) 對數損失評估指標能夠具備負值。

A)真
B)假

解決方案:(B)

對數損失不能爲負值。

13)關於「Type1」和「Type2」錯誤,如下哪一個陳述是正確的?

  1. Type1被稱爲誤報,Type2被稱爲漏報。
  2. Type1被稱爲漏報,Type2被稱爲誤報。
  3. 當咱們拒絕原假設爲空的假設時,就會發生Type1錯誤。

A)僅1

B)只有2

C)只有3

D)1和2

E)1和3

F)2和3

解決方案:(E)

在統計假設檢驗中,I型錯誤是對真實無效假設(「誤報」)的錯誤拒絕,而II型錯誤則是錯誤地保留了虛假假設(「漏報」)。

14)如下哪項是對基於NLP的項目中的文本進行預處理的重要步驟之一?

  1. 詞幹提取
  2. 刪除停頓詞
  3. 對象標準化

A)1和2

B)1和3

C)2和3

D)1,2和3

解決方案:(D)

詞幹提取是從單詞中去除後綴(「 ing」,「 ly」,「 es」,「 s」等)的基於規則的基本過程。

停頓詞是那些與數據上下文無關的詞,例如is / am / are。

對象標準化也是預處理文本的好方法之一。

15)假設你要將高維數據投影到低維。此處使用的兩種最著名的降維算法是PCA和t-SNE。假設你分別對數據「 X」應用了這兩種算法,而且得到了數據集「 X_projected_PCA」,「 X_projected_tSNE」。

對於「 X_projected_PCA」和「 X_projected_tSNE」,如下哪一種說法正確?

A)X_projected_PCA將在最近鄰空間中進行解釋。

B)X_projected_tSNE將在最近鄰空間中進行解釋。

C)二者都將在最近鄰空間中進行解釋。

D)他們都不會在最近鄰空間進行解釋。

解決方案:(B)

t-SNE算法考慮最近鄰點以減小數據的維數。所以,在使用t-SNE以後,咱們能夠認爲縮小的維數也將在最近鄰空間中獲得解釋。可是對於PCA則不是這樣。

問題:16-17

下面給出的是兩個特徵的三個散點圖。

16)在上圖中,如下哪一個是多重共線特徵的示例?

A)圖片1中的函數

B)圖片2中的函數

C)圖片3中的函數

D)圖片1和2中的函數

E)圖片2和3中的函數

F)圖片3和1中的函數

解決方案:(D)

在圖像1中,特徵具備高正相關性,而在圖像2中,特徵之間具備高負相關性,所以在兩個圖像中,特徵對都是多重共線特徵的示例。

17)在上一個問題中,假設你已肯定多重共線特徵。你接下來要執行如下哪一個操做?

  1. 刪除兩個共線變量。
  2. 刪除兩個共線變量中的一個變量。
  3. 刪除相關變量可能會致使信息丟失。爲了保留這些變量,咱們可使用懲罰迴歸模型,例如嶺迴歸或套索迴歸。

A)僅1

B)僅2

C)僅3

D)1或3

E)2或3

解決方案:(E)

你不能同時刪除這兩個特徵,由於在刪除這兩個特徵以後,你將丟失全部信息,所以你應該刪除僅一個特徵,或者可使用L1和L2等正則化算法。

18)將不重要的特徵添加到線性迴歸模型中可能會致使___。

  1. R平方增長
  2. R平方減小

A)只有1正確

B)只有2正確

C)1或2

D)這些都不是

解決方案:(A)

在特徵空間中添加特徵後,不管該特徵是重要特徵仍是不重要特徵,R平方始終會增長。

19)假設給定三個變量X,Y和Z。(X,Y),(Y,Z)和(X,Z)的皮爾遜相關係數分別爲C1,C2和C3。

如今,你在X的全部值中加了2(即新值變爲X + 2),從Y的全部值中減去了2(即新值是Y-2),Z保持不變。(X,Y),(Y,Z)和(X,Z)的新系數分別由D1,D2和D3給出。D1,D2和D3的值與C1,C2和C3有什麼關係?

A)D1 = C1,D2 < C2,D3 > C3

B)D1 = C1,D2 > C2,D3 > C3

C)D1 = C1,D2 > C2,D3 < C3

D)D1 = C1,D2 < C2,D3 < C3

E)D1 = C1,D2 = C2,D3 = C3

F)沒法肯定

解決方案:(E)

若是你在特徵中添加或減去一個值,則特徵之間的相關性不會改變。

20)想象一下,你正在解決類別高度不平衡的分類問題。在訓練數據中,大多數類別有99%的時間被觀察到。

對測試數據進行預測後,你的模型具備99%的準確性。在這種狀況下,如下哪一項是正確的?

  1. 對於類別不平衡問題,準確性度量不是一個好主意。
  2. 精度度量是解決類別不平衡問題的一個好主意。
  3. 準確性和召回率指標對於解決類別不平衡問題頗有用。
  4. 精度和召回率指標不適用於類別不平衡問題。

A)1和3

B)1和4

C)2和3

D)2和4

解決方案:(A)

參考本文中的問題4。

21)在集成學習中,你彙總了弱學習模型的預測,所以與單個模型的預測相比,這些模型的集成將提供更好的預測。

對於集成模型中使用的弱學習模型,如下哪一個陳述是正確的?

  1. 他們一般不會過擬合。
  2. 他們有很高的誤差,因此不能解決複雜的學習問題
  3. 他們一般過擬合。

A)1和2

B)1和3

C)2和3

D)僅1

E)只有2

F)以上都不是

解決方案:(A)

弱學習模型會肯定問題的特定部分。所以,他們一般不會過擬合,這意味着學習能力弱的學習模型具備較低的方差和較高的誤差。

22)對於 K-fold 交叉驗證,如下哪一個選項是正確的?

  1. K的增長將致使交叉驗證結果所需的時間更長。
  2. 與較低的K值相比,較高的K值將致使交叉驗證結果的置信度較高。
  3. 若是K = N,則稱爲「留一法(交叉驗證法)」,其中N是觀察數。

A)1和2

B)2和3

C)1和3

D)1,2和3

解決方案:(D)

k值越大,意味着對高估真實預期偏差的誤差就越小(由於訓練倍數將更接近於總數據集),而運行時間則更長(隨着你愈來愈接近極限狀況:留一法交叉驗證)。選擇k時,咱們還須要考慮k倍精度之間的方差。

問題上下文23-24

**交叉驗證是機器學習中超參數調整的重要步驟。假設你正在經過使用5折交叉驗證從基於樹的模型的10個不一樣深度值(值大於2)中選擇GBM來調整GBM的超參數「max_depth」。
一個算法(在最大深度爲2的模型上)4折的訓練時間是10秒,剩下1折的預測時間是2秒。
注意:公式中忽略硬件依賴性。**

23)對於具備10個不一樣「max_depth」值的5折交叉驗證的整體執行時間,如下哪一個選項是正確的?

A)少於100秒

B)100 – 300秒

C)300 – 600秒

D)大於或等於600秒

E)以上都不是

F)沒法估算

解決方案:(D)

5折交叉驗證中深度「2」的每次迭代將花費10秒進行訓練,而測試則須要2秒。

所以,5折將花費12 5 = 60秒。因爲咱們正在搜索10個深度值,所以該算法將花費60 10 = 600秒。

可是,在深度大於2的狀況下訓練和測試模型所花費的時間將比深度爲「2」花費更多的時間,所以整體計時將大於600秒。

24)在上一個問題中,若是你訓練相同的算法來調整2個超參數,好比「最大深度」和「學習率」。

你想針對最大深度(從給定的10個深度值)和學習率(從給定的5個不一樣的學習率)中選擇正確的值。在這種狀況下,如下哪項將表明總時間?

A)1000-1500秒

B)1500-3000秒

C)大於或等於3000秒

D)這些都不是

解決方案:(D)

與問題23相同。

25)下面給出了針對機器學習算法M1的訓練偏差TE和驗證偏差VE的方案。你要基於TE和VE選擇一個超參數(H)。

H TE VE
1個 105 90
2 200 85
3 250 96
4 105 85
5 300 100

你將根據上表選擇哪一個H值?

解決方案:(D)

根據表格,選擇D是最好的

26)你將在PCA中作什麼以獲得與SVD相同的預測?

A)將數據轉換爲均值零

B)將數據轉換爲中位數零

C)不可能

D)這些都不是

解決方案:(A)

當數據的平均值爲零時,向量PCA的預測將與SVD相同,不然,在獲取SVD以前必須先將數據居中。

問題27-28

假設有一個黑盒算法,該算法使用具備多個觀測值(t1,t2,t3,……..tn)和一個新觀測值(q1)的訓練數據。黑盒輸出q1的最近鄰(例如ti)及其對應的類別標籤ci。

你還能夠認爲該黑盒算法與1-NN(1-最近鄰)相同。

27)能夠僅基於此黑盒算法來構造k-NN分類算法。

注意:與k相比,n(訓練觀測值的數量)很是大。

A)真

B)假

解決方案:(A)

第一步,你在黑盒算法中傳遞了一個觀察值(q1),所以該算法將返回最近鄰的觀察值及其類標籤。

在第二步中,你將其從訓練數據中選出最接近的觀測值,而後再次輸入觀測值(q1)。黑盒算法將再次返回最近鄰觀測值及其類標籤。

你須要重複此過程k次

28)咱們不想使用1-NN黑盒,而是要使用j-NN(j> 1)算法做爲黑盒。對於使用j-NN查找k-NN,如下哪一個選項是正確的?

  1. J必須是k的適當因子
  2. J > k
  3. 不可能

A)1

B)2

C)3

解決方案:(A)

與問題27相同

29)假設你獲得7個散點圖1-7(從左到右),而且你想比較每一個散點圖變量之間的皮爾遜相關係數。

如下哪項是正確的順序?

  1. 1 < 2 < 3 <4
  2. 1 > 2 > 3 > 4
  3. 7 < 6 < 5 <4
  4. 7 > 6 > 5 > 4

A)1和3

B)2和3

C)1和4

D)2和4

解決方案:(B)

從圖像1到4的相關性正在下降(絕對值)。可是從圖像4到7,相關性在增長,但其相關性值是負數(例如0,-0.3,-0.7,-0.99)。

30)你可使用不一樣的指標(例如準確性,對數損失,F分數)來評估二進制分類問題的性能。假設你正在使用對數損失函數做爲評估指標。對於將對數損失解釋爲評估指標,如下哪一個選項是正確的?


  1. 若是分類器對錯誤分類有信心,那麼對數損失會對其進行嚴厲懲罰。
  2. 對於特定的觀察結果,分類器爲正確的類別分配了很小的機率,那麼對數損失的相應貢獻將很是大。
  3. 對數損失越低,模型越好。

A)1和3

B)2和3

C)1和2

D)1,2和3

解決方案:(D)

問題31-32

如下是數據集中給出的五個樣本。

注意:圖像中各點之間的視覺距離表明實際距離。

31)如下哪項是3-NN(3個最近鄰)的留一法交叉驗證準確性?

A)0

D)0.4

C)0.8

D)1

解決方案:(C)

在「留一法」交叉驗證中,咱們將選擇(n-1)個用於訓練的觀察值和1個驗證觀察值。將每一個點視爲交叉驗證點,而後找到該點最近的3個點。

所以,若是你對全部的點重複這個過程,你將獲得正確的分類,全部正類在上圖中給出,但負類將被錯誤分類。所以你將獲得80%的準確率。

32)如下K值中,哪個具備最小的留一法交叉驗證精度?

A)1NN

B)3NN

C)4NN

D)都有相同的留一法錯誤

解決方案:(A)

每一個點在1-NN中將始終被錯誤分類,這意味着你將得到0%的精度。

33)假設你得到了如下數據,而且你想應用邏輯迴歸模型將其分類爲兩個給定的類。

你正在使用具備L1正則化的邏輯迴歸。

其中C是正則化參數,w1和w2是x1和x2的係數。

當你將C的值從零增長到很是大的值時,如下哪一個選項是正確的?

A)首先w2變爲零,而後w1變爲零

B)首先w1變爲零,而後w2變爲零

C)二者同時變爲零

D)即便C值很大,二者也不能爲零

解決方案:(B)

經過查看圖像,咱們發現即便僅使用x2,咱們也能夠有效地執行分類。所以,首先,w1將變爲0。隨着正則化參數的增長,w2將愈來愈接近於0。

34)假設咱們有一個數據集,該數據集能夠在深度爲6的決策樹的幫助下以100%的精度進行訓練。如今考慮下面這些點,並根據這些點選擇選項。

注意:全部其餘超級參數相同,其餘因素不受影響。

1. 深度4將具備高誤差和低方差

2. 深度4將具備低誤差和低方差

A)僅1

B)只有2

C)1和2

D)以上都不是

解決方案:(A)

若是此類數據適合深度爲4的決策樹,則可能會致使數據擬合不足。所以,在擬合不足的狀況下,將具備較高的誤差和較低的方差。

35)如下哪些選項可用於獲取k-Means算法的全局最小值?

1. 嘗試運行用於不一樣質心初始化的算法

2. 調整迭代次數

3. 找出最佳集羣數

A)2和3

B)1和3

C)1和2

D)以上

解決方案:(D)

能夠調整全部選項以找到全局最小值。

36)假設你正在開發一個項目,該項目是二進制分類問題。你在訓練數據集上訓練了模型,並在驗證數據集上得到了如下混淆矩陣。

根據上述混淆矩陣,選擇如下哪一個選項能夠爲你提供正確的預測?

1. 準確度約爲0.91

2. 錯誤分類率約爲0.91

3. 誤報率約爲0.95

4. 真陽率爲〜0.95

A)1和3

B)2和4

C)1和4

D)2和3

解決方案:(C)

準確性(正確分類)是(50 + 100)/ 165,幾乎等於0.91。

真陽率是你正確預測陽性分類的次數,所以真陽率將爲100/105 = 0.95,也稱爲「敏感度」或「召回率」

37)對於如下哪一個超參數,決策樹算法的值越高越好?

1. 用於拆分的樣本數

2. 樹的深度

3. 葉子節點樣本數

A)1和2

B)2和3

C)1和3

D)一、2和3

E)不能判斷

解決方案:(E)

對於全部三個選項A,B和C,沒有必要增長參數的值來提升性能。例如,若是咱們具備很是高的樹深度值,則生成的樹可能會使數據過擬合,而且不能很好地泛化使用。另外一方面,若是咱們的值很低,則樹可能不足以容納數據。所以,咱們不能確定地說「越高越好」。

問題38-39

想象一下,你有一個28 28的圖像,而且在其上運行了3 3的卷積神經網絡,輸入深度爲3,輸出深度爲8。

注意:「步幅」爲1,而且你使用的是相同的填充。

38)使用給定參數時,輸出特徵圖的尺寸是多少?

A)寬度28,高度28和深度8

B)寬度13,高度13和深度8

C)寬度28,高度13和深度8

D)寬度13,高度28和深度8

解決方案:(A)

計算輸出大小的公式是

輸出尺寸=(N – F)/ S + 1

其中,N是輸入大小,F是過濾器大小,S是跨度。

閱讀本文以得到更好的理解。

39)使用如下參數時,輸出特徵圖的尺寸是多少?

A)寬度28,高度28和深度8

B)寬度13,高度13和深度8

C)寬度28,高度13和深度8

D)寬度13,高度28和深度8

解決方案:(B)

同上題。

40)假設,咱們正在繪製SVM算法中不一樣C值(懲罰參數)的可視化圖。因爲某些緣由,咱們忘記了用可視化標記C值。在這種狀況下,對於徑向基函數核,如下哪一個選項最能說明如下圖像的C值?

(從左到右爲1,2,3,因此C值對於image1爲C1,對於image2爲C2,對於image3爲C3)。

A)C1 = C2 = C3

B)C1 > C2 > C3

C)C1 < C2 < C3

D)這些都不是

解決方案:(C)

偏差項的懲罰參數C。它還控制平滑決策邊界和正確分類訓練點之間的權衡。對於較大的C值,將選擇邊距較小的超平面進行優化。

在這裏閱讀更多:https://www.analyticsvidhya.c...

原文連接:https://www.analyticsvidhya.c...

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/

相關文章
相關標籤/搜索