做者|SUNIL RAY
編譯|Flin
來源|analyticsvidhya算法
若是你要問我機器學習中2種最直觀的算法——那就是k最近鄰(kNN)和基於樹的算法。二者都易於理解,易於解釋,而且很容易向人們展現。有趣的是,上個月咱們對這兩種算法進行了技能測試。機器學習
若是你不熟悉機器學習,請確保在瞭解這兩種算法的基礎上進行測試。它們雖然簡單,可是功能強大,而且在工業中獲得普遍使用。此技能測試將幫助你在k最近鄰算法上進行自我測試。它是專爲你測試有關kNN及其應用程序的知識而設計的。函數
超過650人註冊了該測試。若是你是錯過這項技能測試的人之一,那麼這篇文章是測試問題和解決方案。這是參加考試的參與者的排行榜。性能
這裏有一些資源能夠深刻了解該主題。學習
A)真
B)假測試
解決方案:A.net
該算法的訓練階段僅包括存儲訓練樣本的特徵向量和類別標籤。設計
在測試階段,經過分配最接近該查詢點的k個訓練樣本中最頻繁使用的標籤來對測試點進行分類——所以須要更高的計算量。3d
A) 3
B) 10
C) 20
D) 50
解決方案:Brest
當k的值爲10時,驗證偏差最小。
A) Manhattan
B) Minkowski
C) Tanimoto
D) Jaccard
E) Mahalanobis
F)均可以使用
解決方案:F
全部這些距離度量均可以用做k-NN的距離度量。
A)可用於分類
B)可用於迴歸
C)可用於分類和迴歸
解決方案:C
咱們還能夠將k-NN用於迴歸問題。在這種狀況下,預測能夠基於k個最類似實例的均值或中位數。
A)1和2
B)1和3
C)僅1
D)以上全部
解決方案:D
以上陳述是kNN算法的假設
A)K-NN
B)線性迴歸
C)Logistic迴歸
解決方案:A
k-NN算法可用於估算分類變量和連續變量的缺失值。
A)可用於連續變量
B)可用於分類變量
C)可用於分類變量和連續變量
D)無
解決方案:A
曼哈頓距離是爲計算實際值特徵之間的距離而設計的。
A)1
B)2
C)3
D)1和2
E)2和3
F)1,2和3
解決方案:A
在連續變量的狀況下使用歐氏距離和曼哈頓距離,而在分類變量的狀況下使用漢明距離。
A)1
B)2
C)4
D)8
解決方案:A
sqrt((1-2)^ 2 +(3-3)^ 2)= sqrt(1 ^ 2 + 0 ^ 2)= 1
A)1
B)2
C)4
D)8
解決方案:A
sqrt(mod((1-2))+ mod((3-3)))= sqrt(1 + 0)= 1
假設你給出瞭如下數據,其中x和y是2個輸入變量,而Class是因變量。
如下是散點圖,顯示了2D空間中的上述數據。
A)+ 類
B)– 類
C)不能判斷
D)這些都不是
解決方案:A
全部三個最近點均爲 + 類,所以此點將歸爲+ 類。
A)+ 類
B)– 類
C)不能判斷
解決方案:B
如今,此點將歸類爲 – 類,由於在最近的圓圈中有4個 – 類點和3個 + 類點。
假設你提供瞭如下2類數據,其中「+」表明正類,「-」表明負類。
A)3
B)5
C)二者都相同
D)沒有一個
解決方案:B
5-NN將至少留下一個交叉驗證錯誤。
A)2/14
B)4/14
C)6/14
D)8/14
E)以上都不是
解決方案:E
在5-NN中,咱們將有10/14的交叉驗證精度。
A)當你增長k時,誤差會增長
B)當你減小k時,誤差會增長
C)不能判斷
D)這些都不是
解決方案:A
大K表示簡單模型,簡單模型始終被視爲高誤差
A)當你增長k時,方差會增長
B)當你減小k時,方差會增長
C)不能判斷
D)這些都不是
解決方案:B
簡單模型將被視爲方差較小模型
你的任務是經過查看如下兩個圖形來標記兩個距離。關於下圖,如下哪一個選項是正確的?
A)左爲曼哈頓距離,右爲歐幾里得距離
B)左爲歐幾里得距離,右爲曼哈頓距離
C)左或右都不是曼哈頓距離
D)左或右都不是歐幾里得距離
解決方案:B
左圖是歐幾里得距離的工做原理,右圖是曼哈頓距離。
A)我將增長k的值
B)我將減小k的值
C)噪聲不能取決於k
D)這些都不是
解決方案:A
爲了確保你進行的分類,你能夠嘗試增長k的值。
A)1
B)2
C)1和2
D)這些都不是
解決方案:C
在這種狀況下,你可使用降維算法或特徵選擇算法
A)1
B)2
C)1和2
D)這些都不是
解決方案:C
A)k1 > k2 > k3
B)k1 < k2
C)k1 = k2 = k3
D)這些都不是
解決方案:D
k值在k3中最高,而在k1中則最低
A)1
B)2
C)3
D)5
解決方案:B
若是將k的值保持爲2,則交叉驗證的準確性最低。你能夠本身嘗試。
注意:模型已成功部署,除了模型性能外,在客戶端沒有發現任何技術問題
A)多是模型過擬合
B)多是模型未擬合
C)不能判斷
D)這些都不是
解決方案:A
在一個過擬合的模塊中,它彷佛會在訓練數據上表現良好,但它還不夠廣泛,沒法在新數據上給出相同的結果。
A)1
B)2
C)1和2
D)這些都不是
解決方案:C
這兩個選項都是正確的,而且都是不言而喻的。
A) k值越大,分類精度越好
B) k值越小,決策邊界越光滑
C) 決策邊界是線性的
D) k-NN不須要顯式的訓練步驟
解決方案:D
選項A:並不是老是如此。你必須確保k的值不要過高或過低。
選項B:此陳述不正確。決策邊界可能有些良莠不齊
選項C:與選項B相同
選項D:此說法正確
A)真
B)假
解決方案:A
你能夠經過組合1-NN分類器來實現2-NN分類器
A) K值越大,邊界越光滑
B) 隨着K值的減少,邊界變得更平滑
C) 邊界的光滑性與K值無關
D) 這些都不是
解決方案:A
經過增長K的值,決策邊界將變得更平滑
A)1
B)2
C)1和2
D)這些都不是
解決方案:C
兩種說法都是正確的
注意:計算兩個觀測值之間的距離將花費時間D。
A)N * D
B)N * D * 2
C)(N * D)/ 2
D)這些都不是
解決方案:A
N的值很是大,所以選項A是正確的
A)1-NN > 2-NN > 3-NN
B)1-NN < 2-NN < 3-NN
C)1-NN ~ 2-NN ~ 3-NN
D)這些都不是
解決方案:C
在kNN算法中,任何k值的訓練時間都是相同的。
如下是參與者的分數分佈:
你能夠在此處(https://datahack.analyticsvidhya.com/contest/skilltest-logistics-regression/#LeaderBoard) 訪問分數。超過250人蔘加了技能測試,得到的最高分是24。
原文連接:https://www.analyticsvidhya.com/blog/2017/09/30-questions-test-k-nearest-neighbors-algorithm/
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/