屬性相關分析方法:算法
首先,個人讀後感是,對這一系列我感到比較困惑,不過,若是遇到實際問題的時候,只能按照例子,照搬步驟來分析。可是我初步理解到,按照下面的操做,是經過信息量,來分出個屬性的主次,以便消除弱相關屬性,並得到初始工做數據集。數據庫
這是一個基於信息(熵)進行屬性相關分析的基本內容。.net
事例3.7:假設須要利用分析定性描述概括方法,從一個大學數據庫挖掘研究生的概念定性描述。ip
(1) 創建研究生目標數據集合。get
(2) 利用AOI方法,根據屬性泛化控制闕值對目標數據集所包含的屬性進行初步分析。消除取值過多的屬性並進行小規模屬性泛化操做。從而得到3.5的結果。it
(3) 用屬性相關分析方法。首先是利用公式3.4計算當前數據進行分類所須要的信息量:io
再用公式3.5 計算若利用major屬性對數據進行分支所須要的信息爲:cli
(4) 消除弱相關屬性,並得到初始工做數據集。方法
(5) 最後利用算法3.1進行基於屬性的概括,並得到研究生目標數據集的概念描述。im
基於屬性概括結果的表示
AOI方法的挖掘結果能夠有多種輸出表示形式。利用基於屬性概括所得到的挖掘結果一般都是採用如表-3.2所示的表格形式來加以描述。如下就是這樣描述AOI方法挖掘結果的事例。
示例3.3:假設基於屬性概括操做是在一個商場數據庫(2000年銷售額)中進行的,從而得到如表-3.3所示的(泛化)概括結果。
對上述概括結果,咱們能夠轉換成棒圖表示描述
分析定性描述事例
若所挖掘的概念秒速涉及許多屬性,就須要對分析定性描述挖掘(analytical characterization)