數據挖掘150道筆試題

 數據挖掘150道筆試題單選題

1. 某超市研究銷售紀錄數據後發現,買啤酒的人很大機率也會購買尿布,這種屬於數據挖掘的哪類問題?(A)
A. 關聯規則發現       
B. 聚類
C. 分類               
D. 天然語言處理

2. 如下兩種描述分別對應哪兩種對分類算法的評價標準? (A)
  (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。
  (b)描述有多少比例的小偷給警察抓了的標準。

A. Precision,  Recall 
B. Recall,  Precision
C. Precision,  ROC 
D. Recall,  ROC

3. 將原始數據進行集成、變換、維度規約、數值規約是在如下哪一個步驟的任務?(C)
A. 頻繁模式挖掘     
B. 分類和預測     
C. 數據預處理     
D. 數據流挖掘

4. 當不知道數據所帶標籤時,可使用哪一種技術促使帶同類標籤的數據與帶其餘標籤的數據相分離?(B)
A. 分類       
B. 聚類      
C. 關聯分析      
D. 隱馬爾可夫鏈

5. 什麼是KDD? (A)
A. 數據挖掘與知識發現    
B. 領域知識發現
C. 文檔知識發現      
D. 動態知識發現

6. 使用交互式的和可視化的技術,對數據進行探索屬於數據挖掘的哪一類任務?(A)
A. 探索性數據分析    
B. 建模描述
C. 預測建模  
D. 尋找模式和規則

7. 爲數據的整體分佈建模;把多維空間劃分紅組等問題屬於數據挖掘的哪一類任務?(B)
A. 探索性數據分析   
B. 建模描述
C. 預測建模  
D. 尋找模式和規則

8. 創建一個模型,經過這個模型根據已知的變量值來預測其餘某個變量值屬於數據挖掘的哪一類任務?(C)
A. 根據內容檢索   
B. 建模描述
C. 預測建模  
D. 尋找模式和規則

9. 用戶有一種感興趣的模式而且但願在數據集中找到類似的模式,屬於數據挖掘哪一類任務?(A)
A. 根據內容檢索    
B. 建模描述
C. 預測建模  
D. 尋找模式和規則 
                  
11.下面哪一種不屬於數據預處理的方法? (D)
A變量代換   
B離散化  
C彙集 
D估計遺漏值  
              
12. 假設12個銷售價格記錄組已經排序以下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用以下每種方法將它們劃分紅四個箱。等頻(等深)劃分時,15在第幾個箱子內? (B)
A 第一個      
B 第二個  
C 第三個   
D 第四個  
             
13.上題中,等寬劃分時(寬度爲50),15又在哪一個箱子裏? (A)
A 第一個      
B 第二個  
C 第三個   
D 第四個 
             
14.下面哪一個不屬於數據的屬性類型:(D)
A 標稱    
B 序數   
C 區間     
D相異  
                    
15. 在上題中,屬於定量的屬性類型是:(C)
A 標稱    
B 序數    
C 區間  
D 相異   
                   
16. 只有非零值才重要的二元屬性被稱做:( C )
A 計數屬性  
B 離散屬性 
C非對稱的二元屬性  
D 對稱屬性 
      
17. 如下哪一種方法不屬於特徵選擇的標準方法:         (D)
A  嵌入  
B  過濾    
C  包裝   
D  抽樣  
                       
18.下面不屬於建立新屬性的相關方法的是: (B)
A特徵提取    
B特徵修改    
C映射數據到新的空間    
D特徵構造   
              
19. 考慮值集{一、二、三、四、五、90},其截斷均值(p=20%)是 (C)
A 2    
B 3  
C 3.5    
D 5   
                                
20. 下面哪一個屬於映射數據到新的空間的方法? (A)
A 傅立葉變換   
B 特徵加權   
C 漸進抽樣 
D 維歸約     
   
21. 熵是爲消除不肯定性所須要得到的信息量,投擲均勻正六面體骰子的熵是: (B)
A 1比特  
B 2.6比特   
C  3.2比特  
D 3.8比特   
             
22. 假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規範化的方法將屬性的值映射到0至1的範圍內。對屬性income的73600元將被轉化爲:(D)
A 0.821   
B 1.224   
C 1.458  
D 0.716    
            
23.假定用於分析的數據包含屬性age。數據元組中age的值以下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度爲3。第二個箱子值爲:(A)
A 18.3    
B 22.6   
C 26.8  
D 27.9   
       
24. 考慮值集{12 24 33 2 4 55 68 26},其四分位數極差是:(A)
A 31    
B 24     
C 55    
D 3    
                       
25. 一所大學內的各年紀人數分別爲:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的衆數是: (A)
A 一年級    
B二年級    
C 三年級     
D 四年級      
   
26. 下列哪一個不是專門用於可視化時間空間數據的技術: (B)
A 等高線圖    
B 餅圖  
C 曲面圖  
D 矢量場圖    
          
27. 在抽樣方法中,當合適的樣本容量很難肯定時,可使用的抽樣方法是: (D)
A 有放回的簡單隨機抽樣   
B 無放回的簡單隨機抽樣  
C 分層抽樣 
D 漸進抽樣

28. 數據倉庫是隨着時間變化的,下面的描述不正確的是 (C)
A. 數據倉庫隨時間的變化不斷增長新的數據內容;
B. 捕捉到的新數據會覆蓋原來的快照;
C. 數據倉庫隨事件變化不斷刪去舊的數據內容;
D. 數據倉庫中包含大量的綜合數據,這些綜合數據會隨着時間的變化不斷地進行從新綜合.

29. 關於基本數據的元數據是指: (D)
A. 基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;
B. 基本元數據包括與企業相關的管理方面的數據和信息;
C. 基本元數據包括日誌文件和簡歷執行處理的時序調度信息;
D. 基本元數據包括關於裝載和更新處理,分析處理以及管理方面的信息.

30. 下面關於數據粒度的描述不正確的是: (C)
A. 粒度是指數據倉庫小數據單元的詳細程度和級別;
B. 數據越詳細,粒度就越小,級別也就越高;
C. 數據綜合度越高,粒度也就越大,級別也就越高;
D. 粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量.

31. 有關數據倉庫的開發特色,不正確的描述是: (A)
A. 數據倉庫開發要從數據出發;
B. 數據倉庫使用的需求在開發出去就要明確;
C. 數據倉庫的開發是一個不斷循環的過程,是啓發式的開發;
D. 在數據倉庫環境中,並不存在操做型環境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式

32. 在有關數據倉庫測試,下列說法不正確的是: (D)
A. 在完成數據倉庫的實施過程當中,須要對數據倉庫進行各類測試.測試工做中要包括單元測試和系統測試.
B. 當數據倉庫的每一個單獨組件完成後,就須要對他們進行單元測試.
C. 系統的集成測試須要對數據倉庫的全部組件進行大量的功能測試和迴歸測試.
D. 在測試以前不必制定詳細的測試計劃.

33. OLAP技術的核心是: (D)
A. 在線性;
B. 對用戶的快速響應;
C. 互操做性.
D. 多維分析;

34. 關於OLAP的特性,下面正確的是: (D)
(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性
A. (1) (2) (3)
B. (2) (3) (4)
C. (1) (2) (3) (4)
D. (1) (2) (3) (4) (5)

35. 關於OLAP和OLTP的區別描述,不正確的是: (C)
A. OLAP主要是關於如何理解彙集的大量不一樣的數據.它與OTAP應用程序不一樣.
B. 與OLAP應用程序不一樣,OLTP應用程序包含大量相對簡單的事務.
C. OLAP的特色在於事務量大,但事務內容比較簡單且重複率高.
D. OLAP是以數據倉庫爲基礎的,但其最終數據來源與OLTP同樣均來自底層的數據庫系統,二者面對的用戶是相同的.

36. OLAM技術通常簡稱爲」數據聯機分析挖掘」,下面說法正確的是: (D)
A. OLAP和OLAM都基於客戶機/服務器模式,只有後者有與用戶的交互性;
B. 因爲OLAM的立方體和用於OLAP的立方體有本質的區別.
C. 基於WEB的OLAM是WEB技術與OLAM技術的結合.
D. OLAM服務器經過用戶圖形藉口接收用戶的分析指令,在元數據的知道下,對超級立方體做必定的操做.

37. 關於OLAP和OLTP的說法,下列不正確的是: (A)
A. OLAP事務量大,但事務內容比較簡單且重複率高.
B. OLAP的最終數據來源與OLTP不同.
C. OLTP面對的是決策人員和高層管理人員.
D. OLTP以應用爲核心,是應用驅動的.

38. 設X={1,2,3}是頻繁項集,則可由X產生__(C)__個關聯規則。
A、4 
B、5 
C、6 
D、7 
    
40. 概念分層圖是__(B)__圖。
A、無向無環 
B、有向無環 
C、有向有環 
D、無向有環

41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關係是: (C)
A、頻繁項集 頻繁閉項集 =最大頻繁項集
B、頻繁項集 = 頻繁閉項集 最大頻繁項集
C、頻繁項集 頻繁閉項集 最大頻繁項集
D、頻繁項集 = 頻繁閉項集 = 最大頻繁項集

42. 考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數據集中只有5個項,採用 合併策略,由候選產生過程獲得4-項集不包含(C)
A、1,2,3,4 
B、1,2,3,5 
C、1,2,4,5 
D、1,3,4,5

43.下面選項中t不是s的子序列的是  ( C )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>

44. 在圖集合中發現一組公共子結構,這樣的任務稱爲 ( B )
A、頻繁子集挖掘 
B、頻繁子圖挖掘 
C、頻繁數據項挖掘 
D、頻繁模式挖掘

45. 下列度量不具備反演性的是 (D)
A、係數 
B、概率 
C、Cohen度量 
D、興趣因子

46. 下列__(A)__不是將主觀信息加入到模式發現任務中的方法。
A、與同一時期其餘數據對比
B、可視化
C、基於模板的方法
D、主觀興趣度量

47. 下面購物籃可以提取的3-項集的最大數量是多少(C)

ID 購買項
1 牛奶,啤酒,尿布
2 麪包,黃油,牛奶
3 牛奶,尿布,餅乾
4 麪包,黃油,餅乾
5 啤酒,餅乾,尿布
6 牛奶,尿布,麪包,黃油
7 麪包,黃油,尿布
8 啤酒,尿布
9 牛奶,尿布,麪包,黃油
10 啤酒,餅乾

A、1 
B、2 
C、3 
D、4

48. 如下哪些算法是分類算法,(B)
A,DBSCAN  
B,C4.5  
C,K-Mean 
D,EM   

49. 如下哪些分類方法能夠較好地避免樣本的不平衡問題,  (A)  

A,KNN 
B,SVM 
C,Bayes 
D,神經網絡 
 
50. 決策樹中不包含一下哪一種結點, (C)

A,根結點(root node) 
B,內部結點(internal node) 
C,外部結點(external node) 
D,葉結點(leaf node)

51. 不純性度量中Gini計算公式爲(其中c是類的個數) (A)
A,   B,  C,    D,      (A)

53. 如下哪項關於決策樹的說法是錯誤的 (C)
A. 冗餘屬性不會對決策樹的準確率形成不利的影響 
B. 子樹可能在決策樹中重複屢次  
C. 決策樹算法對於噪聲的干擾很是敏感  
D. 尋找最佳決策樹是NP徹底問題

54. 在基於規則分類器的中,依據規則質量的某種度量對規則排序,保證每個測試記錄都是由覆蓋它的「最好的」規格來分類,這種方案稱爲 (B)
A. 基於類的排序方案  
B. 基於規則的排序方案  
C. 基於度量的排序方案  
D. 基於規格的排序方案。  

55. 如下哪些算法是基於規則的分類器 (A) 
A. C4.5  
B. KNN  
C. Na?ve Bayes  
D. ANN

56. 若是規則集R中不存在兩條規則被同一條記錄觸發,則稱規則集R中的規則爲(C);
A, 無序規則  
B,窮舉規則  
C, 互斥規則  
D,有序規則

57. 若是對屬性值的任一組合,R中都存在一條規則加以覆蓋,則稱規則集R中的規則爲(B)
A, 無序規則  
B,窮舉規則  
C, 互斥規則  
D,有序規則

58. 若是規則集中的規則按照優先級降序排列,則稱規則集是 (D)
A, 無序規則  
B,窮舉規則  
C, 互斥規則  
D,有序規則

59. 若是容許一條記錄觸發多條分類規則,把每條被觸發規則的後件看做是對相應類的一次投票,而後計票肯定測試記錄的類標號,稱爲(A)  
A, 無序規則  
B,窮舉規則  
C, 互斥規則  
D,有序規則

60. 考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩餘的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。若是下一場比賽在隊1的主場進行隊1獲勝的機率爲 (C)
A,0.75  
B,0.35  
C,0.4678  
D, 0.5738

61. 如下關於人工神經網絡(ANN)的描述錯誤的有 (A)
A,神經網絡對訓練數據中的噪聲很是魯棒 
B,能夠處理冗餘特徵  
C,訓練ANN是一個很耗時的過程  
D,至少含有一個隱藏層的多層神經網絡

62. 經過彙集多個分類器的預測來提升分類準確率的技術稱爲 (A) 
A,組合(ensemble)   
B,彙集(aggregate)  
C,合併(combination)  
D,投票(voting)

63. 簡單地將數據對象集劃分紅不重疊的子集,使得每一個數據對象恰在一個子集中,這種聚類類型稱做( B )
A、層次聚類      
B、劃分聚類      
C、非互斥聚類      
D、模糊聚類

64. 在基本K均值算法裏,當鄰近度函數採用( A )的時候,合適的質心是簇中各點的中位數。
A、曼哈頓距離      
B、平方歐幾里德距離  
C、餘弦距離      
D、Bregman散度  

65.( C )是一個觀測值,它與其餘觀測值的差異如此之大,以致於懷疑它是由不一樣的機制產生的。
A、邊界點      
B、質心      
C、離羣點      
D、核心點

66. BIRCH是一種( B )。
A、分類器      
B、聚類算法      
C、關聯分析算法      
D、特徵選擇算法

67. 檢測一元正態分佈中的離羣點,屬於異常檢測中的基於( A )的離羣點檢測。
A、統計方法      
B、鄰近度      
C、密度      
D、聚類技術

68.( C )將兩個簇的鄰近度定義爲不一樣簇的全部點對的平均逐對鄰近度,它是一種凝聚層次聚類技術。
A、MIN(單鏈)      
B、MAX(全鏈)      
C、組平均      
D、Ward方法

69.( D )將兩個簇的鄰近度定義爲兩個簇合並時致使的平方偏差的增量,它是一種凝聚層次聚類技術。
A、MIN(單鏈)      
B、MAX(全鏈)     
C、組平均      
D、Ward方法

70.  DBSCAN在最壞狀況下的時間複雜度是( B )。
A、O(m)      
B、O(m2)      
C、O(log m)      
D、O(m*log m)

71. 在基於圖的簇評估度量表裏面,若是簇度量爲proximity(Ci , C),簇權值爲mi ,那麼它的類型是( C )。
A、基於圖的凝聚度      
B、基於原型的凝聚度      
C、基於原型的分離度      
D、基於圖的凝聚度和分離度

72. 關於K均值和DBSCAN的比較,如下說法不正確的是( A )。
A、K均值丟棄被它識別爲噪聲的對象,而DBSCAN通常聚類全部對象。
B、K均值使用簇的基於原型的概念,而DBSCAN使用基於密度的概念。
C、K均值很難處理非球形的簇和不一樣大小的簇,DBSCAN能夠處理不一樣大小和不一樣形狀的簇。
D、K均值能夠發現不是明顯分離的簇,即使簇有重疊也能夠發現,可是DBSCAN會合並有重疊的簇。

73. 如下是哪個聚類算法的算法流程:①構造k-最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat:合併關於相對互連性和相對接近性而言,最好地保持簇的自類似性的簇。④until:再也不有能夠合併的簇。( C )。
A、MST      
B、OPOSSUM      
C、Chameleon      
D、Jarvis-Patrick(JP)

74. 考慮這麼一種狀況:一個對象碰巧與另外一個對象相對接近,但屬於不一樣的類,由於這兩個對象通常不會共享許多近鄰,因此應該選擇( D )的類似度計算方法。
A、平方歐幾里德距離      
B、餘弦距離      
C、直接類似度      
D、共享最近鄰

75. 如下屬於可伸縮聚類算法的是( A )。
A、CURE      
B、DENCLUE      
C、CLIQUE      
D、OPOSSUM

76. 如下哪一個聚類算法不是屬於基於原型的聚類( D )。
A、模糊c均值      
B、EM算法      
C、SOM      
D、CLIQUE

77. 關於混合模型聚類算法的優缺點,下面說法正確的是( B )。
A、當簇只包含少許數據點,或者數據點近似協線性時,混合模型也能很好地處理。
B、混合模型比K均值或模糊c均值更通常,由於它可使用各類類型的分佈。
C、混合模型很難發現不一樣大小和橢球形狀的簇。
D、混合模型在有噪聲和離羣點時不會存在問題。

78. 如下哪一個聚類算法不屬於基於網格的聚類算法( D )。
A、STING     
B、WaveCluster      
C、MAFIA      
D、BIRCH

79. 一個對象的離羣點得分是該對象周圍密度的逆。這是基於( C )的離羣點定義。
A.機率      
B、鄰近度      
C、密度     
D、聚類

80. 下面關於Jarvis-Patrick(JP)聚類算法的說法不正確的是( D )。
A、JP聚類擅長處理噪聲和離羣點,而且可以處理不一樣大小、形狀和密度的簇。
B、JP算法對高維數據效果良好,尤爲擅長髮現強相關對象的緊緻簇。
C、JP聚類是基於SNN類似度的概念。
D、JP聚類的基本時間複雜度爲O(m)。

2、 多選題

1. 經過數據挖掘過程所推倒出的關係和摘要常常被稱爲:(A B)
A. 模型    
B. 模式     
C. 模範      
D. 模具

2 尋找數據集中的關係是爲了尋找精確、方便而且有價值地總結了數據的某一特徵的表示,這個過程包括瞭如下哪些步驟? (A B C D)
A. 決定要使用的表示的特徵和結構
B. 決定如何量化和比較不一樣表示擬合數據的好壞
C. 選擇一個算法過程使評分函數最優
D. 決定用什麼樣的數據管理原則以高效地實現算法。

3. 數據挖掘的預測建模任務主要包括哪幾大類問題? (A B)
A. 分類  
B. 迴歸   
C. 模式發現   
D. 模式匹配

4. 數據挖掘算法的組件包括:(A B C D)
A. 模型或模型結構  
B. 評分函數   
C. 優化和搜索方法   
D. 數據管理策略

5. 如下哪些學科和數據挖掘有密切聯繫?(A D)
A. 統計      
B. 計算機組成原理   
C. 礦產挖掘    
D. 人工智能

6. 在現實世界的數據中,元組在某些屬性上缺乏值是常有的。描述處理該問題的各類方法有: (ABCDE)
A忽略元組      
B使用屬性的平均值填充空缺值
C使用一個全局常量填充空缺值
D使用與給定元組屬同一類的全部樣本的平均值       
E使用最可能的值填充空缺值

7.下面哪些屬於可視化高維數據技術 (ABCE)
A  矩陣   
B 平行座標系   
C星形座標  D散佈圖   
E Chernoff臉

8. 對於數據挖掘中的原始數據,存在的問題有: (ABCDE)
A 不一致    
B重複  
C不完整  
D 含噪聲 
E 維度高   

9.下列屬於不一樣的有序數據的有:(ABCE)
A 時序數據    
B 序列數據    
C時間序列數據    
D事務數據     
E空間數據 

10.下面屬於數據集的通常特性的有:( B C D)
A 連續性  
B 維度    
C 稀疏性  
D 分辨率  
E 相異性 
       
11. 下面屬於維歸約經常使用的線性代數技術的有: (A C)
A 主成分分析  
B 特徵提取  
C 奇異值分解  
D 特徵加權   
E 離散化

12. 下面列出的條目中,哪些是數據倉庫的基本特徵:  (ACD)
A. 數據倉庫是面向主題的           
B. 數據倉庫的數據是集成的  
C. 數據倉庫的數據是相對穩定的       
D. 數據倉庫的數據是反映歷史變化的  
E. 數據倉庫是面向事務的

13. 如下各項均是針對數據倉庫的不一樣說法,你認爲正確的有(BCDE     )。
A.數據倉庫就是數據庫
B.數據倉庫是一切商業智能系統的基礎
C.數據倉庫是面向業務的,支持聯機事務處理(OLTP)
D.數據倉庫支持決策而非事務處理
E.數據倉庫的主要目標就是幫助分析,作長期性的戰略制定

14.  數據倉庫在技術上的工做過程是: (ABCD)
A. 數據的抽取     
B. 存儲和管理      
C. 數據的表現
D. 數據倉庫設計   
E. 數據的表現

15. 聯機分析處理包括如下哪些基本分析功能? (BCD)
A. 聚類   
B. 切片   
C. 轉軸   
D. 切塊   
E. 分類

16. 利用Apriori算法計算頻繁項集能夠有效下降計算頻繁集的時間複雜度。在如下的購物籃中產生支持度不小於3的候選3-項集,在候選2-項集中須要剪枝的是(BD)
ID 項集
1 麪包、牛奶
2 麪包、尿布、啤酒、雞蛋
3 牛奶、尿布、啤酒、可樂
4 麪包、牛奶、尿布、啤酒
5 麪包、牛奶、尿布、可樂

A、啤酒、尿布    
B、啤酒、麪包   
C、麪包、尿布   
D、啤酒、牛奶

17. 下表是一個購物籃,假定支持度閾值爲40%,其中__(A D)__是頻繁閉項集。
TID 項
1 abc
2 abcd
3 bce
4 acde
5 de


A、abc 
B、ad
C、cd 
D、de

18. Apriori算法的計算複雜度受__(ABCD)?__影響。
A、支持度閥值
B、項數(維度)
C、事務數 
D、事務平均寬度

19. 非頻繁模式__(AD)__
A、其支持度小於閾值 
B、都是不讓人感興趣的
C、包含負模式和負相關模式 
D、對異常數據項敏感

20. 如下屬於分類器評價或比較尺度的有: (ACD)

A,預測準確度 
B,召回率 
C,模型描述的簡潔度 
D,計算複雜度 

21. 在評價不平衡類問題分類的度量方法有以下幾種,(ABCD)
A,F1度量 
B,召回率(recall)
C,精度(precision) 
D,真正率(ture positive rate,TPR)

22. 貝葉斯信念網絡(BBN)有以下哪些特色, (AB)
A,構造網絡費時費力 
B,對模型的過度問題很是魯棒 
C,貝葉斯網絡不適合處理不完整的數據 
D,網絡結構肯定後,添加變量至關麻煩  

23. 以下哪些不是最近鄰分類器的特色,  (C)
A,它使用具體的訓練實例進行預測,沒必要維護源自數據的模型 
B,分類一個測試樣例開銷很大 
C,最近鄰分類器基於全局信息進行預測 
D,能夠生產任意形狀的決策邊界 

24. 以下那些不是基於規則分類器的特色,(AC)
A,規則集的表達能力遠不如決策樹好 
B,基於規則的分類器都對屬性空間進行直線劃分,並將類指派到每一個劃分 
C,沒法被用來產生更易於解釋的描述性模型 
D,很是適合處理類分佈不平衡的數據集    

25. 如下屬於聚類算法的是( ABD )。
A、K均值      
B、DBSCAN      
C、Apriori      
D、Jarvis-Patrick(JP)

26.( CD )都屬於簇有效性的監督度量。
A、輪廓係數      
B、共性分類相關係數      
C、熵      
D、F度量

27. 簇有效性的面向類似性的度量包括( BC )。
A、精度      
B、Rand統計量      
C、Jaccard係數      
D、召回率

28.( ABCD )這些數據特性都是對聚類分析具備很強影響的。
A、高維性      
B、規模      
C、稀疏性      
D、噪聲和離羣點

29. 在聚類分析當中,( AD )等技術能夠處理任意形狀的簇。
A、MIN(單鏈)      
B、MAX(全鏈)      
C、組平均      
D、Chameleon

30. ( AB )都屬於分裂的層次聚類算法。
A、二分K均值      
B、MST      
C、Chameleon      
D、組平均

3、 判斷題

1. 數據挖掘的主要任務是從數據中發現潛在的規則,從而能更好的完成描述數據、預測數據等任務。 (對)

2. 數據挖掘的目標不在於數據採集策略,而在於對於已經存在的數據進行模式的發掘。(對)3. 圖挖掘技術在社會網絡分析中扮演了重要的角色。(對)

4. 模式爲對數據集的全局性總結,它對整個測量空間的每一點作出描述;模型則對變量變化空間的一個有限區域作出描述。(錯)

5. 尋找模式和規則主要是對數據進行干擾,使其符合某種規則以及模式。(錯)

6. 離羣點能夠是合法的數據對象或者值。    (對)

7. 離散屬性老是具備有限個值。        (錯)

8. 噪聲和僞像是數據錯誤這一相同表述的兩種叫法。     (錯)

9. 用於分類的離散化方法之間的根本區別在因而否使用類信息。   (對)

10. 特徵提取技術並不依賴於特定的領域。      (錯)

11. 序列數據沒有時間戳。      (對)

12. 定量屬性能夠是整數值或者是連續值。     (對)

13. 可視化技術對於分析的數據類型一般不是專用性的。    (錯)

14. DSS主要是基於數據倉庫.聯機數據分析和數據挖掘技術的應用。(對)

15. OLAP技術側重於把數據庫中的數據進行分析、轉換成輔助決策信息,是繼數據庫技術發展以後迅猛發展起來的一種新技術。 (對)

16. 商業智能系統與通常交易系統之間在系統設計上的主要區別在於:後者把結構強加於商務之上,一旦系統設計完畢,其程序和規則不會輕易改變;而前者則是一個學習型系統,能自動適應商務不斷變化的要求。 (對)

17. 數據倉庫中間層OLAP服務器只能採用關係型OLAP          (錯)

18.數據倉庫系統的組成部分包括數據倉庫,倉庫管理,數據抽取,分析工具等四個部分. (錯)

19. Web數據挖掘是經過數據庫仲的一些屬性來預測另外一個屬性,它在驗證用戶提出的假設過程當中提取信息.   (錯)

21. 關聯規則挖掘過程是發現知足最小支持度的全部項集表明的規則。(錯)

22. 利用先驗原理能夠幫助減小頻繁項集產生時須要探查的候選項個數(對)。

23. 先驗原理能夠表述爲:若是一個項集是頻繁的,那包含它的全部項集也是頻繁的。(錯)

24. 若是規則 不知足置信度閾值,則形如 的規則必定也不知足置信度閾值,其中 是X的子集。(對)

25. 具備較高的支持度的項集具備較高的置信度。(錯)

26. 聚類(clustering)是這樣的過程:它找出描述並區分數據類或概念的模型(或函數),以便可以使用模型預測類標記未知的對象類。  (錯)

27. 分類和迴歸均可用於預測,分類的輸出是離散的類別值,而回歸的輸出是連續數值。(對)

28. 對於SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減小這些樣本對分類結果沒有影響。 (對)

29. Bayes法是一種在已知後驗機率與類條件機率的狀況下的模式分類方法,待分樣本的分類結果取決於各種域中樣本的全體。   (錯)

30.分類模型的偏差大體分爲兩種:訓練偏差(training error)和泛化偏差(generalization error).    (對)

31. 在決策樹中,隨着樹中結點數變得太大,即便模型的訓練偏差還在繼續減低,可是檢驗偏差開始增大,這是出現了模型擬合不足的問題。 (錯)

32. SVM是這樣一個分類器,他尋找具備最小邊緣的超平面,所以它也常常被稱爲最小邊緣分類器(minimal margin classifier)     (錯)

33. 在聚類分析當中,簇內的類似性越大,簇間的差異越大,聚類的效果就越差。(錯)

34. 聚類分析能夠看做是一種非監督的分類。(對)

35. K均值是一種產生劃分聚類的基於密度的聚類算法,簇的個數由算法自動地肯定。(錯)

36. 給定由兩次運行K均值產生的兩個不一樣的簇集,偏差的平方和最大的那個應該被視爲較優。(錯)

37. 基於鄰近度的離羣點檢測方法不能處理具備不一樣密度區域的數據集。(對)

38. 若是一個對象不強屬於任何簇,那麼該對象是基於聚類的離羣點。(對)

39. 從點做爲個體簇開始,每一步合併兩個最接近的簇,這是一種分裂的層次聚類方法。(錯)40. DBSCAN是相對抗噪聲的,而且可以處理任意形狀和大小的簇。(對)
相關文章
相關標籤/搜索