數據挖掘 自習筆記 第二章 數據處理實踐(下)

數據塊消減

數據塊消減方法主要包含參數與非參數兩種基本方法。算法

方法1:迴歸於線性對數模型。函數

迴歸與線性對象模型能夠用於擬合所給定的數據集。例如:利用自變量X的一個線性函數能夠擬合因變量Y的輸出,其線性函數模型爲:大數據

Y=α+βX (2.5).net

其中公式中係數α,β稱爲迴歸係數。也是直線的截距和斜率。這兩個係數能夠經過最小二乘法計算得到。對象

方法2:直方圖ip

直方圖是利用bin方法對數據分佈狀況進行近似,他是一種經常使用的數據消減方法。get

實例2.4:如下是一個商場所銷售商品的價格清單(按遞增順序排列,括號中的數表示前面數字出現次數)it

1(2)、5(5)、8(2)、10(4)、十二、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、2八、30(3)變量

上訴數據所造成的直方圖如-2.6所示。cli

clip_image001

構成直方圖所涉及的數據集劃分方法有如下幾種:

1. 等寬方法:在一個等寬的直方圖中,每一個方條的寬度是相同的。

2. 等高方法:在一個等寬的直方圖中,每一個方條中數據個數是相同的。

3. V-Optimal方法

4. MaxDiff 方法

聚類

聚類技術將數據行,視爲對象。

採樣

採樣方法猶豫能夠利用一小部分(子集)來表明一個大數據集,從而能夠做爲數據消減的一個技術方法。

(1) 無替換簡單隨機採樣方法(SRSWOR方法)該方法從N個數據行中隨機(每一數據行被選中的機率爲1/N)抽取出n個數據行,已構成由n個數據行組成採樣數據子集。

clip_image002

(2) 有替換簡單隨機採樣方法(SRSWR方法)該方法也是從N個數據行中每次隨機抽取一數據行,但該數據行被選中後它仍將留在大數據集D中,這樣最後得到由n個數據行組成採樣數據子集中可能會出現相同的數據行。如圖2.7

(3) 聚類採樣方法。首先將大數據集D劃分爲M個不相交的「類」;而後再從這M個類中的數據對象分別進行隨機抽取,這樣就能夠最終得到聚類採樣數據子集。

clip_image003

(4) 分層採樣方法。若首先將大數據集D劃分爲若干不相交的「層」;而後再分別從這些「層」中隨機抽取數據對象,從而得到具備表明性的採樣數據子集。

例如:能夠對一個顧客數據集按照年齡進行分層、而後再在每一個年齡組中進行隨機選擇,從而確保了最終得到分層採樣數據子集的年齡分佈具備表明性。

離散化和概念層次樹生成

離散化技術方法能夠經過將屬性(連續取值)域值範圍分爲若干區間,來幫助消減一個連續取值個數。

clip_image004

手工構造概念層次樹比較費時費力。此外能夠經過對數據分佈統計分析自動構造或動態完善出概念層次樹。

數據概念層次樹生成

方法1:Bin方法。利用每一個bin的均值和中數替換每一個bin中的值。循環應用這個操做處理每次操做結果,就能夠得到一個概念層次樹。

方法2:直方圖方法。

例如:在等寬直方圖中,數值被劃分爲等大小區間,如:(0,100]、(100,200]、…、(900,1000]。

方法3:聚類分析方法。聚類算法能夠講數據劃分爲若干類或組。

方法4:基於熵的離散化方法。

方法5:天然劃分分段方法。

例如3-4-5規則能夠將數值量分解爲相對統1、天然的區間。具體描述以下:

(1) 若一個區間包含三、六、七、9個不一樣值,則將該區間(包含三、六、9不一樣值)分解爲三個等寬小區間;而將包含7個不一樣值分解爲分別包含2個、3個和2個不一樣值得小區間(也共是三個)

(2) 若一個區間包含二、四、8個不一樣值,則將該區間分解爲四個等寬小區間。

(3) 若一個區間包含一、五、10個不一樣值,則該區間分解爲五個等寬小區間。

實例2.5:假設某個時期內一個商場不一樣分支的利潤數從-351,976元到4,700,896元,要求利用3-4-5規則自動構造利潤屬性的一個概念層次樹。

設在上述範圍取值爲5%至95%的區間爲:-159,876元至1,828,761元。而應用3-4-5規則具體步驟以下:

(1) 屬性的最小最大值分別爲:MIN=-351,976元、MAX=4,700,896元。而根據計算結果,取值5%至95%的區間範圍爲:LOW=-159,876元、HIGH=1,828,761元。

(2) 依據LOW和HIGH及其取值範圍,肯定該取值範圍應按1,000,000元單位進行區間分解。從而獲得:LOW’=-1,000,000元、HIGH’=2,000,000元。

(3) 因爲LOW’與HIGH’之間有3個不一樣值,即(2,000,000 -(-1,000,000))/1,000,000=3。將LOW’與HIGH’之間區間分解爲三個等寬小區間。它們分別是(-1,000,000元 ~ 0元],(0元~1,000,000元], (1,000,000元~2,000,000元]做爲概念書的最高層組成。

(4) 如今檢查原來屬性MIN和MAX值與最高層區間的聯繫。MIN值落入(-1,000,000元 ~ 0元],所以調整左邊界,對MIN取整後得-400,000元,因此調整爲(-400,000元 ~ 0元],而因爲MAX值不在最後一個區間。因此新建區間(2,000,000元~5,000,000元],因此這樣的概念樹最高層最終包含四個區間。它們是(-400,000元 ~ 0元],(0元 ~ -1,000,000元],(1,000,000元 ~ 2,000,000元],(2,000,000元 ~ 5,000,000元]

(5) 對上述分解所得到的區間,應用3-4-5規則進行分解。構成第二層區間組成內容。即:

clip_image006

類別概念層次樹生成。

類別數據是一種離散的數據。構造類別屬性的概念層次主要方法有:

(1) 屬性值的順序關係已在用戶或專家制定的模式定義說明。如:街道<城市<省<國家。

(2) 經過數據聚合來描述層次樹。主要是手工構造的方法。如:{安徽、江蘇、山東}屬於華東地區。

3) 定義一組屬性但不說明其順序。用戶能夠簡單將一組屬性組織在一塊兒便構成一個層次樹。但沒有說明這些屬性相互關係。

相關文章
相關標籤/搜索