新手入門!零基礎學習大數據挖掘的32個知識點

下面是一些關於大數據挖掘的知識點,新手入門必備哦!今天和你們一塊兒來學習一下。web

1. 數據、信息和知識是廣義數據表現的不一樣形式。算法

2. 主要知識模式類型有:數據庫

  • 廣義知識
  • 關聯知識
  • 類知識
  • 預測型知識
  • 特異型知識

3. web 挖掘研究的主要流派有:安全

  • Web 結構挖掘
  • Web 使用挖掘
  • Web 內容挖掘

4. 通常地說,KDD 是一個多步驟的處理過程,通常分爲:ide

  • 問題定義
  • 數據抽取
  • 數據預處理
  • 數據挖掘
  • 模式評估等基本階段

5. 數據庫中的知識發現處理過程模型有:函數

  • 階梯處理過程模型
  • 螺旋處理過程模型
  • 以用戶爲中心的處理結構模型
  • 聯機 KDD 模型
  • 支持多數據源多知識模式的 KDD 處

6. 粗略地說,知識發現軟件或工具的發展經歷了獨立的知識發現軟件、橫向的知識發現工具集和縱向的知識發現解決方案三個主要階段,其中後面兩種反映了目前知識發現軟件的兩個主要發展方向。工具

7. 決策樹分類模型的創建一般分爲兩個步驟:性能

  • 決策樹生成
  • 決策樹修剪

8. 從使用的主要技術上看,能夠把分類方法歸結爲四種類型:學習

  • 基於距離的分類方法
  • 決策樹分類方法
  • 貝葉斯分類方法
  • 規則概括方法

9. 關聯規則挖掘問題能夠劃分紅兩個子問題:測試

  • 發現頻繁項目集: 經過用戶給定 Minsupport ,尋找全部頻繁項目集或者最大頻繁項目集。
  • 生成關聯規則: 經過用戶給定 Minconfidence ,在頻繁項目集中,尋找關聯規則。

10. 數據挖掘是相關學科充分發展的基礎上被提出和發展的,主要的相關技術:

  • 數據庫等信息技術的發展
  • 統計學深刻應用
  • 人工智能技術的研究和應用

11. 衡量關聯規則挖掘結果的有效性,應該從多種綜合角度來考慮:

  • 準確性:挖掘出的規則必須反映數據的實際狀況。
  • 實用性:挖掘出的規則必須是簡潔可用的。
  • 新穎性:挖掘出的關聯規則能夠爲用戶提供新的有價值信息。

12. 約束的常見類型有:

  • 單調性約束
  • 反單調性約束
  • 可轉變的約束
  • 簡潔性約束

13. 根據規則中涉及到的層次,多層次關聯規則能夠分爲:

  • 同層關聯規則:若是一個關聯規則對應的項目是同一個粒度層次,那麼它是同層關聯規則。
  • 層間關聯規則:若是在不一樣的粒度層次上考慮問題,那麼可能獲得的是層間關聯規

14. 按照聚類分析算法的主要思路,聚類方法能夠被概括爲以下幾種:

  • 劃分法:基於必定標準構建數據的劃分。
  • 屬於該類的聚類方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS 等。
  • 層次法:對給定數據對象集合進行層次的分解。
  • 密度法:基於數據對象的相連密度評價。
  • 網格法:將數據空間劃分紅爲有限個單元 (Cell) 的網格結構,基於網格結構進行聚類。
  • 模型法:給每個簇假定一個模型,而後去尋找可以很好的知足這個模型的數據集。

15. 類間距離的度量主要有:

  • 最短距離法:定義兩個類中最靠近的兩個元素間的距離爲類間距離。
  • 最長距離法:定義兩個類中最遠的兩個元素間的距離爲類間距離。
  • 中心法:定義兩類的兩個中心間的距離爲類間距離。
  • 類平均法:它計算兩個類中任意兩個元素間的距離,而且綜合他們爲類間距離:離差平方和。

16. 層次聚類方法具體可分爲:

  • 凝聚的層次聚類:一種自底向上的策略,首先將每一個對象做爲一個簇,而後合併這些原子簇爲愈來愈大的簇,直到某個終結條件被知足。
  • 分裂的層次聚類:採用自頂向下的策略,它首先將全部對象置於一個簇中,而後逐漸細分爲愈來愈小的簇,直到達到了某個終結條件。
  • 層次凝聚的表明是 AGNES 算法:層次分裂的表明是 DIANA 算法。

17. 文本挖掘 (TD) 的方式和目標是多種多樣的,基本層次有:

  • 關鍵詞檢索:最簡單的方式,它和傳統的搜索技術相似。
  • 挖掘項目關聯:聚焦在頁面的信息 (包括關鍵詞) 之間的關聯信息挖掘上。
  • 信息分類和聚類:利用數據挖掘的分類和聚類技術實現頁面的分類,將頁面在一個更到層次上進行抽象和整理。
  • 天然語言處理:揭示天然語言處理技術中的語義,實現 Web 內容的更精確處理。

18. 在 web 訪問挖掘中經常使用的技術:

  • 路徑分析:路徑分析最經常使用的應用是用於斷定在一個 Web 站點中最頻繁訪問的路徑,這樣的知識對於一個電子商務網站或者信息安全評估是很是重要的。
  • 關聯規則發現:使用關聯規則發現方法能夠從 Web 訪問事務集中,找到通常性的關聯知識。
  • 序列模式發現:在時間戳有序的事務集中,序列模式的發現就是指找到那些如 「一些項跟隨另外一個項」 這樣的內部事務模式。
  • 分類:發現分類規則能夠給出識別一個特殊羣體的公共屬性的描述。這種描述能夠用於分類新的項。
  • 聚類:能夠從 Web Usage 數據中彙集出具備類似特性的那些客戶。在 Web 事務日誌中,聚類顧客信息或數據項,就可以便於開發和執行將來的市場戰略。

19. 根據功能和側重點不一樣,數據挖掘語言能夠分爲三種類型:

  • 數據挖掘查詢語言:但願以一種像 SQL 這樣的數據庫查詢語言完成數據挖掘的任務。
  • 數據挖掘建模語言:對數據挖掘模型進行描述和定義的語言,設計一種標準的數據挖掘建模語言,使得數據挖掘系統在模型定義和描述方面有標準能夠遵循。
  • 通用數據挖掘語言:通用數據挖掘語言合併了上述兩種語言的特色,既具備定義模型的功能,又能做爲查詢語言與數據挖掘系統通訊,進行交互式挖掘。通用數據挖掘語言標準化是目前解決數據挖掘行業出現問題的頗具吸引力的研究方向。

20. 規則概括有四種策略:

  • 減法策略:以具體例子爲出發點,對例子進行推廣或泛化,推廣即減除條件 (屬性值) 或減除合取項(爲了方便,咱們不考慮增長析取項的推廣),使推廣後的例子或規則不覆蓋任何反例。
  • 加法策略:起始假設規則的條件部分爲空 (永真規則),若是該規則覆蓋了反例,則不停地向規則增長條件或合取項,直到該規則再也不覆蓋反例。
  • 先加後減策略:因爲屬性間存在相關性,所以可能某個條件的加入會致使前面加入的條件沒什麼做用,所以須要減除前面的條件。
  • 先減後加策略:道理同先加後減,也是爲了處理屬性間的相關性。

21. 數據挖掘定義有廣義和狹義之分。

  • 從廣義的觀點,數據挖掘是從大型數據集 (多是不徹底的、有噪聲的、不肯定性的、各類存儲形式的) 中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。
  • 從這種狹義的觀點上,咱們能夠定義數據挖掘是從特定形式的數據集中提煉知識的過程。

22. web 挖掘的含義:

針對包括 Web 頁面內容、頁面之間的結構、用戶訪問信息、電子商務信息等在內的各類 Web 數據,應用數據挖掘方法以幫助人們從因特網中提取知識,爲訪問者、站點經營者以及包括電子商務在內的基於因特網的商務活動提供決策支持。

23. K - 近鄰分類算法 (K Nearest Neighbors,簡稱 KNN) 的定義:

經過計算每一個訓練數據到待分類元組的距離,取和待分類元組距離最近的 K 個訓練數據,K 個數據中哪一個類別的訓練數據佔多數,則待分類元組就屬於哪一個類別。

24. K-means 算法的性能分析:

主要優勢:

  • 是解決聚類問題的一種經典算法,簡單、快速。
  • 對處理大數據集,該算法是相對可伸縮和高效率的。
  • 當結果簇是密集的,它的效果較好。

主要缺點

  • 在簇的平均值被定義的狀況下才能使用,可能不適用於某些應用。
  • 必須事先給出 k(要生成的簇的數目),並且對初值敏感,對於不一樣的初始值,可能會致使不一樣結果。
  • 不適合於發現非凸面形狀的簇或者大小差異很大的簇。並且,它對於 「躁聲」 和孤立點數據是敏感的。

25. ID3 算法的性能分析:

  • ID3 算法的假設空間包含全部的決策樹,它是關於現有屬性的有限離散值函數的一個完整空間。因此 ID3 算法避免了搜索不完整假設空間的一個主要風險:假設空間可能不包含目標函數。
  • ID3 算法在搜索的每一步都使用當前的全部訓練樣例,大大下降了對個別訓練樣例錯誤的敏感性。所以,經過修改終止準則,能夠容易地擴展處處理含有噪聲的訓練數據。
  • ID3 算法在搜索過程當中不進行回溯。因此,它易受無回溯的登山搜索中的常見風險影響:收斂到局部最優而不是全局最優。

26. Apriori 算法有兩個致命的性能瓶頸:

  • 屢次掃描事務數據庫,須要很大的 I/O 負載
  • 對每次 k 循環,侯選集 Ck 中的每一個元素都必須經過掃描數據庫一次來驗證其是否加入 Lk。假若有一個頻繁大項目集包含 10 個項的話,那麼就至少須要掃描事務數據庫 10 遍。
  • 可能產生龐大的侯選集
  • 由 Lk-1 產生 k - 侯選集 Ck 是指數增加的,例如 104 個 1 - 頻繁項目集就有可能產生接近 107 個元素的 2 - 侯選集。如此大的侯選集對時間和主存空間都是一種挑戰。

27. 改善 Apriori 算法適應性和效率的主要的改進方法有:

  • 基於數據分割 (Partition) 的方法:基本原理是 「在一個劃分中的支持度小於最小支持度的 k - 項集不多是全局頻繁的」。
  • 基於散列的方法:基本原理是 「在一個 hash 桶內支持度小於最小支持度的 k - 項集不多是全局頻繁的」。
  • 基於採樣的方法:基本原理是 「經過採樣技術,評估被採樣的子集中,並依次來估計 k - 項集的全局頻度」。
  • 其餘:如,動態刪除沒有用的事務:「不包含任何 Lk 的事務對將來的掃描結果不會產生影響,於是能夠刪除」。

28. 面向 Web 的數據挖掘比面向數據庫和數據倉庫的數據挖掘要複雜得多:

  • 異構數據源環境:Web 網站上的信息是異構: 每一個站點的信息和組織都不同; 存在大量的無結構的文本信息、複雜的多媒體信息; 站點使用和安全性、私密性要求各異等等。
  • 數據的是複雜性:有些是無結構的 (如 Web 頁),一般都是用長的句子或短語來表達文檔類信息; 有些多是半結構的 (如 Email,HTML 頁)。固然有些具備很好的結構 (如電子表格)。揭開這些複合對象蘊涵的通常性描述特徵成爲數據挖掘的不可推卸的責任。
  • 動態變化的應用環境:
  • Web 的信息是頻繁變化的,像新聞、股票等信息是實時更新的。
  • 這種高變化也體如今頁面的動態連接和隨機存取上。
  • Web 上的用戶是難以預測的。
  • Web 上的數據環境是高噪音的。

29. 簡述知識發現項目的過程化管理 I-MIN 過程模型。

MIN 過程模型把 KDD 過程分紅 IM一、IM二、…、IM6 等步驟處理,在每一個步驟裏,集中討論幾個問題,並按必定的質量標準來控制項目的實施。

  • IM1 任務與目的:它是 KDD 項目的計劃階段,肯定企業的挖掘目標,選擇知識發現模式,編譯知識發現模式獲得的元數據; 其目的是將企業的挖掘目標嵌入到對應的知識模式中。
  • IM2 任務與目的:它是 KDD 的預處理階段,能夠用 IM2a、IM2b、IM2c 等分別對應於數據清洗、數據選擇和數據轉換等階段。其目的是生成高質量的目標數據。
  • IM3 任務與目的:它是 KDD 的挖掘準備階段,數據挖掘工程師進行挖掘實驗,反覆測試和驗證模型的有效性。其目的是經過實驗和訓練獲得濃縮知識 (Knowledge Concentrate),爲最終用戶提供可以使用的模型。
  • IM4 任務與目的:它是 KDD 的數據挖掘階段,用戶經過指定數據挖掘算法獲得對應的知識。
  • IM5 任務與目的:它是 KDD 的知識表示階段,按指定要求造成規格化的知識。
  • IM6 任務與目的:它是 KDD 的知識解釋與使用階段,其目的是根據用戶要求直觀地輸出知識或集成到企業的知識庫中。

30. 數據分類的兩個步驟是什麼?

  • 創建一個模型,描述預約的數據類集或概念集
  • 一、數據元組也稱做樣本、實例或對象。
  • 二、爲創建模型而被分析的數據元組造成訓練數據集。
  • 三、訓練數據集中的單個元組稱做訓練樣本,因爲提供了每一個訓練樣本的類標號,所以也稱做有指導的學習。
  • 四、經過分析訓練數據集來構造分類模型,可用分類規則、決策樹或數學公式等形式提供。
  • 使用模型進行分類
  • 一、首先評估模型 (分類法) 的預測準確率。
  • 二、若是認爲模型的準確率能夠接受,就能夠用它對類標號未知的數據元組或對象進行分類。

31. web 訪問信息挖掘的特色:

  • Web 訪問數據容量大、分佈廣、內涵豐富和形態多樣
  • 一箇中等大小的網站天天能夠記載幾兆的用戶訪問信息。
  • 普遍分佈於世界各處。
  • 訪問信息形態多樣。
  • 訪問信息具備豐富的內涵。
  • Web 訪問數據包含決策可用的信息
  • 每一個用戶的訪問特色能夠被用來識別該用戶和網站訪問的特性。
  • 同一類用戶的訪問,表明同一類用戶的個性。
  • 一段時期的訪問數據表明了羣體用戶的行爲和羣體用戶的共性。
  • Web 訪問信息數據是網站的設計者和訪問者進行溝通的橋樑。
  • Web 訪問信息數據是開展數據挖掘研究的良好的對象。
  • Web 訪問信息挖掘對象的特色
  • 訪問事務的元素是 Web 頁面,事務元素之間存在着豐富的結構信息。
  • 訪問事務的元素表明的是每一個訪問者的順序關係,事務元素之間存在着豐富的順序信息。
  • 每一個頁面的內容能夠被抽象出不一樣的概念,訪問順序和訪問量部分決定概念。
  • 用戶對頁面存在不一樣的訪問時長,訪問長表明了用戶的訪問興趣。

32. web 頁面內文本信息的挖掘:

挖掘的目標是對頁面進行摘要和分類。

  • 頁面摘要:對每個頁面應用傳統的文本摘要方法能夠獲得相應的摘要信息。
  • 頁面分類:分類器輸入的是一個 Web 頁面集 (訓練集),再根據頁面文本信息內容進行監督學習,而後就能夠把學成的分類器用於分類每個新輸入的頁面。

在文本學習中經常使用的方法是 TFIDF 向量表示法,它是一種文檔的詞集 (Bag-of-Words) 表示法,全部的詞從文檔中抽取出來,而不考慮詞間的次序和文本的結構。這種構造二維表的方法是:

  • 每一列爲一個詞,列集 (特徵集) 爲辭典中的全部有區分價值的詞,因此整個列集可能有幾十萬列之多。
  • 每一行存儲一個頁面內詞的信息,這時,該頁面中的全部詞對應到列集 (特徵集) 上。列集中的每個列(詞),若是在該頁面中不出現,則其值爲 0; 若是出現 k 次,那麼其值就爲 k; 頁面中的詞若是不出如今列集上,能夠被放棄。這種方法能夠表徵出頁面中詞的頻度。

對中文頁面來講,還需先分詞而後再進行以上兩步處理。

這樣構造的二維表表示的是 Web 頁面集合的詞的統計信息,最終就能夠採用 Naive Bayesian 方法或 k-Nearest Neighbor 等方法進行分類挖掘。

在挖掘以前,通常要先進行特徵子集的選取,以下降維數。

相關文章
相關標籤/搜索