數據挖掘之關聯分析四（連續屬性處理）

時間 2019-11-08

標籤數據挖掘關聯分析連續屬性處理简体版

原文原文鏈接

處理連續屬性

挖掘連續屬性可能揭示數據的內在聯繫，包含連續屬性的關聯規則一般稱做量化關聯規則（quantitative association rule）。html

主要討論三種對連續數據進行關聯分析的方法算法

基於離散化的方法
基於統計學的方法
非離散化方法

基於離散化方法

離散化是處理連續屬性最經常使用的方法，這種方法將連續屬性的鄰近值分組，造成有限個區間，例如，年齡屬性能夠造成以下區間
年齡 $ \in $ [12, 16), 年齡$\in$ [16, 20)……
離散化可使用任意技術（如等區間寬度、等頻率、等熵、或聚類）實現。spa

屬性離散化一個關鍵參數時用於劃分每一個屬性的區間。一般這個參數由用戶提供，單可能會遇到下面問題htm

若是區間太寬，則肯能由於缺少置信度而丟失某些模式。
\[ R'_1：年齡\in [16, 20)\to網上聊天=是（s = 4.4\%，c = 84.6\%）\]
儘管具備較高的支持度，可是由於較寬的區間致使規則的置信度都小於閾值。
若是區間太窄，則可能由於缺少支持度而丟失某些模式。
當區間不合適時，可能致使有些規則被分裂成子規則，若是自規則的置信度和支持度都足夠高，就能夠經過聚類來恢復原來的規則，可是若是置信度或者支持度較低，則不能恢復原來的規則。

處理這些問題的一個方法是經過考慮鄰近區間的每一個分組，可是也會致使下面的計算問題blog

計算開銷大
提取許多冗餘規則，如
\[ R_3：年齡\in [16, 20)\to網上聊天=是 \]
\[ R_4：年齡\in [16, 24)\to網上聊天=是 \]
其中$R_4$是$R_3$的泛化，若是兩個規則的置信度值相同，則$R_4$更有趣，由於其涵蓋更多的例子。此時$R_3$是冗餘的。

基於統計學的方法

量化關聯規則能夠用來推斷整體的統計性質，基於統計學的方法，能夠提取以下形式
\[ \{ 年收入 > \$100K, 網上購物 = 是 \} \to 年齡：均值 = 38 \]
規則代表年收入超過￥100K而且按期在網上購物的因特網用戶的平均年齡爲38歲。事務

規則產生

爲了產生基於統計學的量化關聯規則，必須制定用於刻畫有趣整體段特性的目標屬性。保留目標屬性，使用上面的方法對數據的其他連續屬性和分類屬性進行二元化。而後使用已有的算法如Apriori算法從二元化數據中提取頻繁項集，每一個頻繁項集肯定一個有趣整體段。使用均值、中位數、方差或絕對誤差等統計量對目標屬性在每一個段內的分佈進行彙總。如在上面的例子中經過對頻繁項集$ { 年收入 > $100K, 網上購物 = 是 } $ 統計因特網用戶平均年齡。此時年齡爲目標屬性。ci

規則確認

僅當由規則覆蓋的事務計算的統計量不一樣於由爲被規則覆蓋的事務計算的統計量時，該量化規則纔是有趣的。例如，僅當不支持規則$ { 年收入 > $100K, 網上購物 = 是 } $ 的因特網用戶平均年齡顯著大於或小於38歲時，上面獲得的規則纔是有趣的。爲了確保該平均年齡差是否具備統計意義，應當使用統計假設檢驗方法進行檢驗。文檔

考慮量化關聯規則$A \to t: \mu$,其中A是頻繁項集，t是連續的目標屬性，而$\mu$是被A覆蓋的事務t的均值。此外，設$\mu'$是未被覆蓋的事務的均值，目標檢驗$\mu$和$\mu'$之間的差是夠大於用戶設定的閾值$\Delta$。在統計假設檢驗中，兩個相反的假設分別爲原假設（null hypothesis）和備擇假設（alternative hypothesis）。
假定$\mu<\mu'$，原假設爲$H_0: \mu' = \mu + \Delta$，備擇假設爲$H_1: \mu' > \mu + \Delta$。使用正態分佈進行檢驗，計算統計量
\[ Z = \frac{ \mu' - \mu -\Delta }{ \sqrt[2]{ \frac{s^2_1}{n_1}+\frac{s^2_2}{n_2} } } \]
其中$n_1$和$ n_2 $分別是支持和不支持A的事務個數，$ s_1 $和$ s_2 $是標準差。Z是標準正態分佈，均值爲0.方差爲1.計算獲得的Z值和置信水平的閾值$ Z_{\alpha} $進行比較，若是$Z>Z_{\alpha}$，則拒絕原假設，選擇備擇假設，咱們能夠斷言該關聯規則是有趣的。不然，數據中沒有足夠的證據證實均值之差具備統計意義。get

非離散化方法

在一些應用中，令分析者感興趣的不是連續屬性的離散區間之間聯繫，而是連續屬性之間的聯繫。例如文本文檔中詞的關聯，以相同方式變化的集合能夠具備想死的支持度值。it

文本挖掘中，分析者更感興趣的是詞之間的聯繫，如（數據和挖掘）之間的聯繫，而不是每一個詞頻的區間關聯，如（數據$\in$[1, 4]，挖掘$\in$[2, 3]）。一種方法是將數據變爲0/1矩陣，超過某個閾值t記爲1，不然爲0。儘管該方法能夠是分析者利用已有的頻繁模式挖掘算法對二元數據進行分析，可是肯定t值是一個很棘手的問題。若是閾值太大，則會失去不少關聯，若是過小，則可能有不少錯誤的關聯。

另外一種發現詞關聯的方法稱做min-Apriori。和傳統的關聯分析相似，項集是詞的聚集，而支持度用來度量詞之間的關聯程度。項集的支持度能夠根據對應詞的規範化頻率計算（規範化是爲了確保數據在相同的尺度上）。給定文檔中詞之間的關聯經過獲取他們之間的規範化頻率最小值獲得，如$world_1$和$world_2$之間的支持度爲$min(word_1,word_2)$，項集的支持度經過兩個詞在全部文檔中最小支持度的彙集獲得。如$min(word_1,word_2) = min(5,3)+\cdots$

min-Apriori中支持度具備如下性質

支持度隨詞的規範化頻率增長而單調遞增。
支持度隨包含該詞的文檔數增長而遞增。
支持度具備反單調性。支持度項集隨項集中詞數的增長而單調遞減，考慮一對項集{A, B}和{A, B, C}，咱們能夠獲得$min({A, B}) \geq min({A, B, C})$，從而有$s({A, B}) \geq s({A, B, C})$

數據挖掘之關聯分析一（基本概念）
數據挖掘之關聯分析二（頻繁項集的產生）
數據挖掘之關聯分析三（規則的產生）
數據挖掘之關聯分析四（連續屬性處理）
數據挖掘之關聯分析五（序列模式）
數據挖掘之關聯分析六（子圖模式）
數據挖掘之關聯分析七（非頻繁模式）