數據挖掘 自習筆記 第三章 定性概括實踐(下)

屬性相關分析方法:算法

首先,個人讀後感是,對這一系列我感到比較困惑,不過,若是遇到實際問題的時候,只能按照例子,照搬步驟來分析。可是我初步理解到,按照下面的操做,是經過信息量,來分出個屬性的主次,以便消除弱相關屬性,並得到初始工做數據集。數據庫

這是一個基於信息(熵)進行屬性相關分析的基本內容。.net

clip_image001

clip_image002

clip_image003

事例3.7:假設須要利用分析定性描述概括方法,從一個大學數據庫挖掘研究生的概念定性描述。ip

(1) 創建研究生目標數據集合。get

(2) 利用AOI方法,根據屬性泛化控制闕值對目標數據集所包含的屬性進行初步分析。消除取值過多的屬性並進行小規模屬性泛化操做。從而得到3.5的結果。it

clip_image004

(3) 用屬性相關分析方法。首先是利用公式3.4計算當前數據進行分類所須要的信息量:io

clip_image005

clip_image006

再用公式3.5 計算若利用major屬性對數據進行分支所須要的信息爲:cli

clip_image007

clip_image008

(4) 消除弱相關屬性,並得到初始工做數據集。方法

(5) 最後利用算法3.1進行基於屬性的概括,並得到研究生目標數據集的概念描述。im

 

基於屬性概括結果的表示

AOI方法的挖掘結果能夠有多種輸出表示形式。利用基於屬性概括所得到的挖掘結果一般都是採用如表-3.2所示的表格形式來加以描述。如下就是這樣描述AOI方法挖掘結果的事例。

示例3.3:假設基於屬性概括操做是在一個商場數據庫(2000年銷售額)中進行的,從而得到如表-3.3所示的(泛化)概括結果。

clip_image001[5]

clip_image003[5]

對上述概括結果,咱們能夠轉換成棒圖表示描述

clip_image004[6]

分析定性描述事例

若所挖掘的概念秒速涉及許多屬性,就須要對分析定性描述挖掘(analytical characterization)

相關文章
相關標籤/搜索