K近鄰算法你掌握了嗎?來測試一下就知道了!

簡介

若是你要問我兩個機器學習中最直觀明瞭且通俗易懂的算法——那必然就是K近鄰算法和基於樹的算法了。這兩個算法都易於理解,也很容易解釋,而且可以很好地去向人們展現。最近,咱們就針對這兩種算法,整理了一些測試題。算法

若是你是機器學習的新手,也要在理解這兩種算法的基礎上進行測試。它們雖然簡單,可是卻十分強大且被普遍運用在工業領域。這些技能測試可以幫助你測試你在K近鄰算法方面的技術能力。由於它們是爲測試你在K近鄰算法上的基礎知識與應用能力而量身定製的。機器學習

有超過650人註冊參加考試。若是你錯過了這個測試也不要緊,下面就是測試的問題與答案。性能

技能測試試題與答案解析

1)【True or False】KNN算法在測試時花費更多計算,而不是訓練時。學習

A) TRUE B)FALSE測試

答案:Aspa

解析:算法的訓練階段僅包括存儲訓練樣本的特徵向量和類標籤。 在測試階段,經過在最接近該查詢點的k個訓練樣本中分配最頻繁的標籤來對測試點進行分類——所以這方面計算更多。rem

2)下圖中,若使用K近鄰算法,最佳K值應在哪裏取得?部署

A) 3 B)10 C) 20 D)50it

答案:Bclass

解析:當K爲10時,驗證的錯誤率最低,因此K值應取10.

3)下圖哪一種度量距離不能用於KNN算法?

A)Manhattan B)Minkowski C)Tanimoto D) Jaccard E)Mahalanobis F) 全部均可以

答案:F

解析:全部的度量距離均可以用於KNN。

4)關於KNN哪一種觀點是對的?

A)它能夠用於分類

B)它能夠用於迴歸

C)它能夠用於分類和迴歸

答案:C

解析:咱們也可使用KNN來解決迴歸問題。在這種狀況下,預測能夠基於k個最類似實例的均值或中值。

5)下面關於KNN算法哪一種說法是正確的?

1.若是全部的數據是一樣的大小,KNN算法表現比較好

2.KNN算法適用於小數據輸入,而大量數據輸入時會遇到困難。

3.KNN算法並無對正在處理的問題的功能形式進行假設。

A)1和2

B)1和3

C)只有1

D)以上全部

答案:D

解析:以上全部的說法都是正確的

6)如下哪一種機器學習算法可用於輸入分類和連續變量的缺失值?

A )KNN

B)線性迴歸

C)邏輯迴歸

答案:A

解析:k-NN算法可用於估算分類和連續變量的缺失值。

7)關於曼哈頓距離哪一種觀點是對的?

A)它能夠用於連續變量

B)它能夠用於分類變量

C)二者均可以

D)二者都不能夠

答案:A

解析:曼哈頓距離用於計算實值特徵之間的距離。

8)對於k-NN中的分類變量,咱們使用如下哪一種距離測量?

1.漢明距離

2.歐幾里得距離

3.曼哈頓距離

A)1

B)2

C)3

D)1和2

E )2和3

F )1和2和3

答案:A

解析:在連續變量的狀況下使用歐幾里得距離和曼哈頓距離,而在分類變量的狀況下使用漢明距離。

9)如下哪一項是歐幾里德距離算法下,兩個數據點A(1,3)和B(2,3)之間的距離?

A)1

B)2

C)4

D)8

答案:A

解析:sqrt( (1-2)^2 + (3-3)^2) = sqrt(1^2 + 0^2) = 1

10)如下哪一項將是曼哈頓距離算法下,兩個數據點A(1,3)和B(2,3)之間的距離?

A)1

B)2

C)4

D)8

答案:A

解析:sqrt( mod((1-2)) + mod((3-3))) = sqrt(1 + 0) = 1

11題,12題內容

假設已經給出瞭如下數據,其中x和y是兩個輸入變量,分類結果是因變量。

下面是散點圖,在二維空間裏顯示上面的數據:

11)假設您想要使用KNN(K值爲3)中的歐式距離預測新數據點x = 1和y = 1的類。那麼這個數據點屬於哪一個類?

A)+類

B)-類

C)不能肯定

D)不是上面這些結果

答案:A

解析:全部三個最近點都是+類,因此這一點將被歸類爲+ 類。

12)在上一個問題中,您如今想要使用7-NN而不是3-KNN,如下x = 1和y = 1屬於哪一個類?

A)+類

B)-類

C)不能肯定

答案:B

解析:如今這一點將被歸類爲 - 類,由於有4個-類點和3個+類點在圓圈中。

13題,14題的內容:

假設您已經給出瞭如下2類數據,其中「+」表示正類,「-」表示負類。

13)在KNN中,下面哪一個K值,能夠值得交叉驗證的偏差值最小?

A)3

B)5

C)上面均可以

D)上面都不能夠

答案:B

解析:K爲5時,交叉驗證的偏差值最小。

14)下面哪一個是K爲5時,交叉驗證集的誤差?

A)2/14

B)4/14

C)6/14

D)8/14

E)以上都不是

答案:E

解析:K爲5時,正確結果爲10/14。

15)就誤差而言,關於K,下面哪一個是正確的?

A)增長K時,誤差會增長

B)減少K時,誤差會增長

C)不能肯定

D)以上都不對

答案:A

解析:大K意味着簡單的模型,簡單的模型老是有高誤差。

16)就方差而言,關於K,下面哪一個是正確的?

A)增長K時,方差會增長

B)減少K時,方差會增長

C)不能肯定

D)以上都不對

答案:B

解析:簡單的模型通常會有較小的方差。

17)一般咱們在K-NN算法中使用瞭如下兩個距離(歐式距離和曼哈頓距離)。這些距離在兩個點A(x1,y1)和B(x2,Y2)之間。你的任務是經過查看如下兩個圖來標記兩個距離。關於下圖,如下哪一個選項是正確的?

A)左邊是曼哈頓距離,右邊是歐幾里德距離 B)左邊是歐幾里德距離,右邊是曼哈頓距離 C)左邊或右邊都不是曼哈頓距離 D)左或右都不是歐幾里德距離

答案:B

解析:左邊是歐幾里德距離如何工做的圖形描述,而右邊是曼哈頓距離。

18)在KNN中發現有噪聲,你會作下面哪一種選擇?

A)增長K的值 B)減少K的值 C)噪聲與K值無關 D)以上都不對

答案:A

解析:增長K值可以讓你更加相信分類結果。

19)在KNN中,因爲維度等緣由,很容易產生過擬合。那麼你會採用下面哪一種方法來解決這個問題呢?

1.維度下降

2.特徵選擇

A)1 B)2 C)1和2 D)以上都不對

答案:C

解析:兩種方法都是能夠的。

20)下面兩個陳述哪一個是對的?

1.KNN是一種基於記憶的方法,由於分類器在咱們收集到新的數據時會當即適應。

2.在最壞的狀況下,用於分類新樣本的計算複雜度隨着訓練數據集中的樣本數量線性增加。

A)1

B)2

C)1和2

D)以上都不對

答案:C

解析:兩個都是對的,顯而易見。

21)假設給出下面的圖像(左邊爲1.中間爲2,右邊爲3),如今你的任務是找出每幅圖中的KNN中的K值,其中K1表示第一個K,K2表示第二個K,K3表示第三個K。

A) K1 > K2 > K3 B) K1 < K2 C) K1 = K2 = K3 D) None of these

答案:D

解析:K3是K值最高的,而最低的是K1。

22)下圖中哪一個k 最少能夠給出一個交叉驗證準確度?

A)1

B)2

C)3

D)5

答案:B

解析:若是k值爲2,則它會提供最低的交叉驗證精度。

23)如今有一家公司創建了一個KNN分類器,能夠在訓練數據時得到100%的準確性。當他們在客戶端部署這個模型的時候發現這個模型一點都不許確,多是下面哪一項出錯了?

注:模型已經成果部署,除了模型性能外,客戶端沒有發現其餘技術問題。

A)它多是一個過擬合了的模型

B)這個模型不適用

C)沒法解釋

D)以上都不是

答案:A

解析:在一個過分擬合的模塊中,它能夠在訓練數據上表現良好,但它並不足以推廣給新數據而達到一樣的結果。

24)下面兩個關於KNN的陳述,哪一個是對的?

1.在k值很是大的狀況下,咱們能夠未來自其餘類的點包括在鄰域中。

2.在k值過小的狀況下,算法對噪聲很是敏感。

A)1

B)2

C)1和2

D)以上都不對

答案:C

解析:這兩個都是顯而易見的正確。

25)關於KNN分類器,下面哪一個說法是正確的?

A)K值越大,分類的精度越高

B)使用較小的K值,決策邊界教平滑

C)決策邊界是線性的

D)KNN沒有明確的訓練步驟

答案:D

解析:選項A,並不老是這樣,K值不能過小,也不能太大;

選項B,C,決策邊界多是有鋸齒狀的。

26)【True or False】可以使用一個1-NN分類器去構建一個2-NN分類器。

A) TRUE B)FALSE

答案:A

解析:能夠經過集成1-NN分類器來實現2-NN分類器。

27)在k-NN中,當你增長/減小k的值時會發生什麼?

A)隨着K值增長,決策邊界會更加平滑

B)隨着K值減少,決策邊界會更加平滑

C)決策邊界是否平滑與K值無關

D)以上都不對

答案:A

解析:增長K值,決策邊界會更加平滑

28)下面兩個關於KNN的陳述,哪一個是對的?

1.咱們能夠在交叉驗證的幫助下選擇k的最佳值。

2.歐幾里德距離將每一個特徵視爲同等重要。

A)1

B)2

C)1和2

D)以上都不對

答案:C

解析:兩個說法都是正確的

29題,30題內容

假設你已經訓練好了KNN模型,如今你想要在測試集上進行預測。在測試以前,你想要計算KNN模型用於預測測試集的時間。

注:計算兩次觀察之間的距離須要花費時間D。

29)若是測試數據中有N(很是大)個觀測值,1-NN所需的時間是多少?

A ) NxD B ) NxDx2 C ) (NxD)/2 D ) 以上都不對

答案:A

解析:當N的值很是大時,計算每一個觀測值時間就是N*D。

30)1-NN,2-NN,3-NN 所用時間之間的關係是什麼?

A) 1-NN >2-NN >3-NN B) 1-NN < 2-NN < 3-NN C) 1-NN = 2-NN = 3-NN D) 以上都不對

答案:C

解析:每一個K的訓練時間都是相同的。

整體分佈

下面是參加測試者的得分分佈圖:

在分佈圖中可見,超過250人進行了測試,最高分爲24分。

相關文章
相關標籤/搜索