姓名: 班級: 成績: 算法
1、 判斷題(題數:15,共 15.0 分)數據庫
1Python 3中,print (1.2 - 1.0 == 0.2)執行結果爲True。( )(1.0分)網絡
正確答案: × 函數
2分類模型的偏差大體分爲兩種:訓練偏差(training error)和泛化偏差(generalization error)。( )(1.0分)測試
正確答案: √ 大數據
3在決策樹中,隨着樹中結點數變得太大,即便模型的訓練偏差還在繼續減低,可是檢驗偏差開始增大,這是出現了模型擬合不足的問題。( )(1.0分)雲計算
正確答案: × spa
4在聚類分析當中,簇內的類似性越大,簇間的差異越大,聚類的效果就越差。( )(1.0分)日誌
正確答案: × orm
5聚類分析能夠看做是一種非監督的分類。( )(1.0分)
正確答案: √
6若是一個對象不強屬於任何簇,那麼該對象是基於聚類的離羣點。( )(1.0分)
正確答案: √
7容許偏差應根據錯誤記錄對整個系統可能帶來的破壞來肯定,一般正是那些低使用率的產品或不常使用的產品爲庫存偏差帶來很大麻煩,所以應結合數量方差百分比和絕對值方差來肯定偏差。( )(1.0分)
正確答案: √
8召回率反映的是預測爲正中的樣本中正例的機率。( )(1.0分)
正確答案: ×
9支持度表示前項與後項在一個數據集中同時出現的頻率。( )(1.0分)
正確答案: √
10最大最小值標準化法也叫極值法,該方法適用於已知數據集的最小值或最大值狀況。( )(1.0分)
正確答案: √
11波特五力模型中五個壓力來源是供應商議價能力、購買者的議價能力、行業新進入者的威脅、替代產品的威脅及企業內部的管理壓力。( )(1.0分)
正確答案: ×
12異常值在數理統計裏通常是指一組觀測值中與平均值的誤差超過三倍標準差的測定值。( )(1.0分)
正確答案: ×
13數據可視化能夠便於人們對數據的理解。( )(1.0分)
正確答案: √
14大數據思惟,是指一種意識,認爲公開的數據一旦處理得當能夠爲人類急需解決的問題提供答案。( )(1.0分)
正確答案: √
15資金自己具備時間價值。( )(1.0分)
正確答案: ×
2、 單選題(題數:30,共 45.0 分)
1某超市研究銷售記錄發現,購買牛奶的人很大機率會購買麪包,這種屬於數據挖掘的哪類問題?( )(1.5分)
A、 聚類分析 B、關聯規則 C、分類分析 D、天然語言處理
正確答案: B
2如下兩種描述分別對應哪兩種對分類算法的評價標準?( )
(a)警察抓殺人犯,描述警察抓的人中有多少個是殺人犯的標準。
(b)描述有多少比例的殺人犯給警察抓了的標準。(1.5分)
• A、Precision, Recall B、Recall, Precision
• C、 Precision, ROC D、Recall, ROC
正確答案: A
3將原始數據進行集成、變換、維度規約、數值規約是在如下哪一個步驟的任務?( )(1.5分)
• A、數據獲取 B、分類和預測
• C、數據預處理 D、數據可視化
正確答案: C
4當不知道數據所帶標籤時,可使用哪一種技術促使帶同類標籤的數據與帶其餘標籤的數據相分離?( )(1.5分)
• A、分類 B、聚類 C、關聯分析 D、主成分分析
正確答案: B
5下面哪一種不屬於數據預處理的方法?( )(1.5分)
• A、變量代換 B、離散化 C、彙集 D、估計遺漏值
正確答案: D
6假設12個銷售價格記錄組已經排序以下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用等寬劃分(寬度爲50)方法將它們劃分紅四個箱,求15在哪一個箱子裏?( )(1.5分)
• A、第一個 B、第二個 C、第三個 D、第四個
正確答案: A
7如下哪一個算法是分類算法?( )(1.5分)
• A、DBSCAN B、C4.5 C、K-Mean D、K-medoids
正確答案: B
8如下哪一個分類方法能夠較好地避免樣本的不平衡問題?( )(1.5分)
• A、KNN B、SVM C、Bayes D、神經網絡
正確答案: A
9關於K均值和DBSCAN的比較,如下說法不正確的是( )。(1.5分)
• A、K均值丟棄被它識別爲噪聲的對象,而DBSCAN通常聚類全部對象
• B、K均值使用簇的基於原型的概念,而DBSCAN使用基於密度的概念
• C、K均值很難處理非球形的簇和不一樣大小的簇,DBSCAN能夠處理不一樣大小和不一樣形狀的簇
• D、K均值能夠發現不是明顯分離的簇,即使簇有重疊也能夠發現,可是DBSCAN會合並有重疊的簇
正確答案: A
10下列不屬於關聯分析的關鍵要素的是( )(1.5分)
• A、支持度 B、置信度 C、滿意度 D、提高度
正確答案: C
11因子分析的主要做用有( )(1.5分)
• A、對變量進行降維 B、對變量進行判別
• C、對變量進行聚類 D、以上都不對
正確答案: A
12ROC曲線凸向哪一個角,表明模型越理想?( )(1.5分)
• A、左上角 B、左下角 C、右上角 D、右下角
正確答案: A
13 SQL語句中刪除表的命令是( )(1.5分)
• A、DROP TABLE B、DELETE TABLE
• C、ERASE TABLE D、DELETE DBF
正確答案: A
14在多元迴歸模型的檢驗中,目的是檢驗每個自變量與因變量在指定顯著性水平上是否存在線性相關關係的檢驗是( )(1.5分)
• A、r檢驗 B、t檢驗 C、f檢驗 D、DW檢驗
正確答案: B
15( )提供的支撐技術,有效解決了大數據分析、研發的問題,好比虛擬化技術、並行計算、海量存儲和海量管理等。(1.5分)
• A、點計算 B、線計算 C、雲計算 D、面計算
正確答案: C
16智能健康手環的應用開發,體現了( )的數據採集技術的應用。(1.5分)
• A、統計報表 B、網絡爬蟲 C、API接口 D、傳感器
正確答案: D
17下列關於數據重組的說法中,錯誤的是( )(1.5分)
• A、數據重組是數據的從新生產和從新採集
• B、數據重組可以使數據煥發新的光芒
• C、數據重組實現的關鍵在於多源數據融合和數據集成
• D、數據重組有利於實現新穎的數據模式創新
正確答案: A
18美國海軍軍官莫里經過對前人航海日誌的分析,繪製了新的航海路線圖,標明瞭大風與洋流可能發生的地點。這體現了大數據分析理念中的( )(1.5分)
• A、在數據基礎上傾向於全體數據而不是抽樣數據
• B、在分析方法上更注重相關分析而不是因果分析
• C、在分析效果上更追究效率而不是絕對精確
• D、在數據規模上強調相對數據而不是絕對數據
正確答案: B
19當前國內社會中,最爲突出的大數據環境是( )(1.5分)
• A、互聯網 B、物聯網 C、綜合國力 D、天然資源
正確答案: A
20下列關於聚類挖掘技術的說法中,錯誤的是( )(1.5分)
• A、不預先設定數據歸類類目,徹底根據數據自己性質將數據聚合成不一樣類別
• B、要求同類數據的內容類似度儘量小
• C、要求不一樣類數據的內容類似度儘量小
• D、與分類挖掘技術類似的是,都是要對數據進行分類處理
正確答案: B
21下列關於大數據的分析理念的說法中,錯誤的是( )(1.5分)
• A、在數據基礎上傾向於全體數據而不是抽樣數據
• B、在分析方法上更注重相關分析而不是因果分析
• C、在分析效果上更追究效率而不是絕對精確
• D、在數據規模上強調相對數據而不是絕對數據
正確答案: D
22對於企業來講,數據使用的關鍵是( )(1.5分)
• A、數據收集 B、數據存儲 C、數據分析 D、數據再利用
正確答案: D
23數據倉庫的最終目的是( )(1.5分)
• A、收集業務需求 B、創建數據倉庫邏輯模型
• C、開發數據倉庫的應用分析
• D、爲用戶和業務部門提供決策支持
正確答案: D
24大數據背景下,數據支撐業務的目的是( )(1.5分)
• A、創建數據科學 B、完成數據應用
• C、配備數據硬件 D、吸納數據人才
正確答案: B
25在SQL中,建立數據庫用的命令是( )(1.5分)
• A、CREATE SCHEMA B、CREATE TABLE
• C、CREATE VIEW D、CREATE DATABASE
正確答案: D
26下列四項中,不屬於數據庫特色的是( )(1.5分)
• A、數據共享 B、數據完整性
• C、數據冗餘很高 D、數據獨立性高
正確答案: C
27資金的時間價值是( )(1.5分)
• A、同一資金在同一時點上價值量的差額
• B、同一資金在不一樣時點上價值量的差額
• C、不一樣資金在同一時點上價值量的差額
• D、不一樣資金在不一樣時點上價值量的差額
正確答案: B
28下列哪一種不是Python元組的定義方式?( )(1.5分)
正確答案: A
29下列關於計算機存儲容量單位的說法中,錯誤的是( )(1.5分)
• A、1KB<1MB<1GB B、基本單位是字節(Byte)
• C、一個漢字須要一個字節的存儲空間
• D、一個字節可以容納一個英文字符
正確答案: C
30按數據的結構程度來劃分,分爲( )(1.5分)
• A、結構化數據 半結構化數據 非結構化數據
• B、強結構化數據 弱結構化數據
• C、截面數據 面板數據
• D、一級數據 二級數據 三級數據
正確答案: A
3、 多選題(題數:20,共 40.0 分)
1如下屬於數據預處理的是( )(2.0分)
• A、缺失值填充 B、噪聲數據剔除
• C、異常值識別 D、數據可視化
正確答案: ABC
2缺失值的處理方法有哪些?( )(2.0分)
• A、用平均值填充 B、忽略缺失記錄
• C、以任意數據填充 D、用默認值填充
正確答案: ABD
3如下屬於數據規約方法的是( )(2.0分)
• A、數據離散化 B、數據標準化
• C、噪聲數據識別 D、數據壓縮
正確答案: AD
4數據挖掘的預測建模任務主要包括哪幾大類問題?( )(2.0分)
• A、分類 B、迴歸 C、模式發現 D、模式匹配
正確答案: AB
5如下說法正確的有哪些?( )(2.0分)
• A、大數據僅僅是講數據的體量大
• B、大數據對傳統行業有幫助
• C、大數據會帶來機器智能
• D、大數據是一種思惟方式
正確答案: BCD
6關於大數據的來源,如下理解正確的是( )(2.0分)
• A、大數據是數據量變積累達到質變的結果
• B、數據的產生須要經歷很長時間
• C、咱們每一個人都是數據的製造者
• D、當今的世界,基本上一切均可以用數字表達,因此叫數字化的世界
正確答案: ACD
7大數據在今天這個時間點上爆發的緣由有哪些?( )(2.0分)
• A、各類傳感器無時無刻不在爲咱們提供大量的數據
• B、各類監控設備無時無刻不在爲咱們提供大量的數據
• C、各類智能設備無時無刻不在爲咱們提供大量的數據
• D、互聯網的收集和積累
正確答案: ABCD
8( )這些數據特性都是對聚類分析具備很強影響的。(2.0分)
• A、高維性 B、規模 C、稀疏性 D、噪聲和離羣點
正確答案: ABCD
9如下哪一個分佈是右偏分佈?( )(2.0分)
• A、均勻分佈 B、卡方分佈
• C、F分佈 D、對數正態分佈
正確答案: BCD
10Python中函數是對象,描述正確的是? ( )(2.0分)
A. 函數能夠賦值給一個變量
B. 函數能夠做爲元素添加到集合對象中
C. 函數能夠做爲參數值傳遞給其它函數
D. 函數能夠當作函數的返回值
正確答案: ABCD
11以下表student中,如何篩選type爲包含數學或語文的記錄?( )(2.0分)
ID |
type |
score |
A01 |
數學 |
78 |
A02 |
語文 |
76 |
A03 |
英語 |
90 |
A04 |
數學 |
68 |
A05 |
英語 |
84 |
• A、select * from student where type=「數學」 and type=「語文」
• B、select * from student where type=「數學」 or type=「語文」
• C、select * from student where type in (「數學」 , 「語文」)
• D、select * from student where type in (「數學」、 「語文」)
正確答案: BC
12主成分分析計算選擇相關係數計算法時,肯定主成分個數大體原則包括( )(2.0分)
• A、特徵根值大於1 B、特徵根值大於0.8
• C、累積特徵根值加總佔總特徵根值的80%以上
• D、累積特徵根值加總佔總特徵根值的90%以上
正確答案: AC
13在客戶關係管理中,客戶的生命週期都包括( )階段。(2.0分)
• A、潛在客戶 B、響應客戶
• C、即得客戶 D、流失客戶
正確答案: ABCD
14分箱方法有哪些?( )(2.0分)
• A、等深分箱 B、等寬分箱
• C、數據標準化 D、自定義區間法
正確答案: ABD
15按照性質,預測方法大體可分爲( )。(2.0分)
A、定性預測 B、情景預測
C、時間序列預測 D、迴歸預測
正確答案: ACD
16咱們能夠用哪一種方式來避免決策樹過分擬合的問題?( )(2.0分)
• A、利用修剪法來限制樹的深度
• B、利用盆栽法規定每一個節點下的最小的記錄數目
• C、利用逐步迴歸法來刪除部分數據
• D、目前並沒有適合的方法來處理這問題
正確答案: AB
17
圖中0預測的準確率和召回率是多少?( )(2.0分)
• A、0.81 B、0.77 C、0.80 D、0.78
正確答案: AC
18如下屬於聚類算法的是( )(2.0分)
• A、K均值 B、DBSCAN C、Apriori D、k-medoids
正確答案: ABD
19下列對ID3算法的描述,正確的是()(2.0分)
• A、每一個節點的分支度都不相同
• B、使用Information Gain做爲節點分割的依據
• C、能夠處理數值型態的字段
• D、沒法處理空值的字段
正確答案: ABD
20機率密度曲線( )(2.0分)
A、位於X軸的上方 B、在X軸上下襬動
C、與X軸之間的面積爲1 D、與X軸之間的面積爲0
正確答案:AC