數據挖掘(二):認識數據

1. 數據對象與屬性類型

數據集由數據對象組成。一個數據對象表明一個實體,如:學校數據庫中對象能夠是學生、老師。
數據對象用屬性來描述。數據庫

1.1 什麼是屬性

屬性是一個數據字段,表示數據對象的一個特徵。
屬性能夠是標稱的二元的序數的數值的數據結構

1.2 標稱屬性

標稱屬性的值是一些符號事物的名稱,這些值沒必要具備有意義的序(無序)。每一個值表明某種類別、編碼或狀態,所以標稱屬性又被看作是分類的。例如:頭髮顏色:黑色、黃色、棕色和白色。
標稱屬性不能求出均值和中位數,但能夠找出衆數函數

1.3 二元屬性

二元屬性是一種標稱屬性,只有兩個類別或狀態:0或1。
例如:假設屬性smoker描述患者對象,1表示患者抽菸,0表示不抽菸。
二元屬性又稱布爾屬性,當兩種狀態對應於true和false時。
二元屬性是對稱的,當它的兩種狀態具備同等價值並攜帶相同權重,例如:性別屬性。
二元屬性是非對稱的,當它的狀態或結果不是同等重要的,例如:HIV化驗的陽性結果和陰性結果。編碼

1.4 序數屬性

序數屬性是一種屬性,其可能的值之間具備有意義的序或秩評定,但相繼值之間的差是未知的。例如:小、中、大或成績:A+、A、A-、B+。
序數屬性一般用於等級評定調查
序數屬性的中心趨勢能夠用它的衆數中位數表示,但不能定義均值。spa

注意:標稱、二元和序數屬性都是定性的,即描述對象特徵,但不給出實際大小。

1.5 數據屬性

數據屬性是定量的,能夠是區間標度的或比率標度的。code

  1. 區間標度屬性:區間標度屬性用相等的單位尺度度量。區間屬性的值有序,能夠爲正、0、負。所以,除了值的秩評定外,這種屬性容許咱們比較和定量評估值之間的差。例如:溫度屬性。
  2. 比率標度屬性:比率標度屬性具備固定零點(即,能夠說一個值是另外一個值的倍數比率)。這些值都是有序的,例如:開式溫度(K)具備絕對零點(0°K = -273.15℃),在該點構成物質的粒子具備零動能。

區間標度屬性除了中心趨勢度量中位數和衆數外,還能夠計算均值對象

1.6 離散屬性和連續屬性

離散屬性是有有限無限可數個值,能夠用或不用整數表示。
若是屬性不是離散的,則它是連續的。blog

2. 數據的基本統計描述

2.1 中心趨勢度量:均值、中位數、衆數

  • 均值:$x_{mean} = \frac{\sum_{i=1}^N x_i}{N}$
  • 加權均值:$x_{mean} = \frac{\sum_{i=1}^N w_{i}x_{i}}{\sum_{i=1}^N w_i}$
  • 截尾均值:爲抵消少數極端值的影響,丟棄高低極端值後的均值

對於傾斜(非對稱)數據,數據中心的更好度量是中位數
可使用插值計算整個數據集的中位數的近似值:
$ median = L_{1} + (\frac{\frac{N}{2} - (\sum freq)_{l}}{freq_{median}})*width $
$L_1$:中位數區間的下界, N:整個數據集中值的個數,$(\sum freq)_l$:低於中位數區間的全部頻數和,$freq_{median}$:中位數區間的頻數,$width$:中位數區間的寬度排序

一個數據集和能有多個衆數,當最高頻率對應多個不一樣的值,具備一個、兩個、三個衆數的數據集合分別稱爲單峯的雙峯的三峯的,具備兩個及以上稱爲多峯的
一個數據集也可能沒有衆數,好比:每一個元素只出現一次。
中列數是數據集的最大值和最小值的平均值。ip

2.2 度量數據分佈:極差、四分位數、方差、標準差和四分位數極差

  1. 極差、四分位數和四分位數極差
    極差:最大值最小值之差
    分位數是取自數據分佈的每隔必定間隔上的點,把數據劃分紅基本上大小相等的連貫集合。
    四分位數:三個數據點把數據劃分紅四個相等部分
    四分位數極差(IQR): $IQR = Q_3 - Q_1$ (其中,$Q_3$是第三個分位數,$Q_1$是第一個分位數)
  2. 五數歸納、盒圖與離羣點
    識別離羣點的通用規則:挑選落在第三個四分位數之上或第一個四分位數之下至少$1.5*IQR$處的值。
    五數歸納由中位數($Q_2$)、四分位數$Q_1$和$Q_3$、最小最大觀測值組成,按次序是$Minimum,Q_1,Median,Q_3,Maximum$
    盒圖(箱線圖)體現了五數歸納:
    $a$.盒的端點通常在四分位數上,使得盒的長度是四分位數極差$IQR$
    $b$.中位數用盒內的線標記
    $c$.盒外的兩條線延申到最小和最大觀測值
  3. 方差和標準差
    方差:$\sigma^{2} = \frac{1}{N} \sum(x_i-x_{mean})^{2} = \frac{1}{N} \sum_{i=1}^{N} x_i^2 - x_{mean}^{2}$
    標準差:$\sigma$
    做爲發散性的度量,標準差$\sigma$的性質是:
    $a$.$\sigma$度量關於均值的發散,僅當選擇均值做爲中心度量時使用。
    $b$.僅當不存在發散時,$\sigma=0$,不然$\sigma > 0$

2.3 數據的基本統計描述的圖形顯示

包括分位數圖分位數-分位數圖(q-q圖)直方圖散點圖,前三種圖顯示一元分佈,散點圖顯示二元分佈

3. 數據可視化

經過圖形表示清晰有效地表達數據。

  1. 基於像素的可視化技術
  2. 幾何投影可視化技術
  3. 基於圖符的可視化技術
  4. 層次可視化技術

4. 度量數據的類似性和相異性

類似性和相異性都稱鄰近性
若是兩個對象$i$和$j$不類似,則它們的類似性度量爲0

4.1 數據矩陣與相異性矩陣

數據矩陣(對象-屬性結構):這種數據結構用關係表的形式或$n*p$($n$個對象 x $p$個屬性)矩陣存放幾個數據對象:

$$ \left[ \begin{matrix} x_{11} & ... & x_{1f} & ... & x_{1p} \\ ... & ... & ... & ... & ... \\ x_{i1} & ... & x_{if} & ... & x_{ip}\\ ... & ... & ... & ... & ... \\ x_{n1} & ... & x_{nf} & ... & x_{np}\\ \end{matrix} \right] $$

相異性矩陣(對象-對象結構):存放幾個對象兩兩之間的鄰近度,一般用一個$n*n$矩陣表示:

$$ \left[ \begin{matrix} 0 & & & & \\ d(2,1) & 0 & & & \\ d(3,1) & d(3,2) & 0 & & \\ ... & ... & ... & ... & \\ d(n,1) & d(n,2) & ... & ... & 0 \\ \end{matrix} \right] $$

其中$d(i,j)$是對象$i$和對象$j$之間的相異性。通常$d(i,j)$是非負的,$d(i,j)=d(j,i)$

類似性度量能夠表示成相異性度量的函數:
$sim(i,j) = 1- d(i,j)$, 其中$sim(i,j)$是對象$i$和$j$之間的類似性

數據矩陣常常被稱爲二模矩陣,由兩種實體組成,即行和列。
相異性矩陣只包含一類實體,所以被稱爲單模矩陣

4.2 標稱屬性的鄰近性度量

兩個對象$i$和$j$之間的相異性能夠根據不匹配率來計算:
$d(i,j) = \frac{p-m}{p}$
其中,$m$是匹配數目(即$i$和$j$取值相同狀態的屬性數),$p$是刻畫對象的屬性總數
類似性計算:$sim(i,j)=\frac{m}{p}$

4.3 二元屬性的鄰近性度量

二元屬性列聯表

對象$j$
1 0 sum
對象$j$ 1 $q$ $r$ $q+r$
0 $s$ $t$ $s+t$
sum $q+s$ $r+t$ $p$

若是$i$和$j$都用對稱的二元屬性刻畫,則$i$和$j$的相異性爲:
$d(i,j)=\frac{r+s}{q+r+s+t} $
非對稱的二元相異性:
$d(i,j)=\frac{r+s}{q+r+s} $
非對稱的二元類似性:
$sim(i,j)=\frac{q}{q+r+s} = 1-d(i,j) $ ,這被稱爲$Jaccard$係數
當對稱與非對稱的二元屬性同時出現時,使用混合屬性方法。

4.4 數值屬性的相異性:閔可夫斯基距離

歐幾里得距離(即,直線):
$d(i,j)=\sqrt{(x_{i1}-x_{j1})^2 + (x_{i2}-x_{j2})^2 + ... + (x_{ip}-x_{jp})^2} $
曼哈頓(或城市塊)距離:城市兩點之間的街區距離
$d(i,j)=\mid x_{i1}-x_{j1}\mid + \mid x_{i2}-x_{j2} \mid +...+ \mid x_{ip}-x_{jp} \mid$

clipboard.png

歐幾里得距離和曼哈頓距離知足如下性質:
  • 非負性:$d(i,j)≥0$
  • 同一性:$d(i,i)=0$
  • 對稱性:$d(i,j)=d(j,i)$
  • 三角不等式:$d(i,j)≤d(i,k)+d(k,j)$

知足這些條件的測度稱做度量

閔可夫斯基距離是歐式距離和曼哈頓距離的推廣(又稱$L_p$範數):
$d(i,j)=((\mid x_{i1}-x_{j1}\mid)^{h} + (\mid x_{i2}-x_{j2} \mid)^{h} +...+ (\mid x_{ip}-x_{jp} \mid)^{h})^{\frac{1}{h}}$ ,其中$h≥1$.
當$h=1$時,表示曼哈頓距離($L_1$範數)
當$h=2$時,表示歐式距離($L_2$範數)
上確界距離(又稱$L_{max}$, $L_∞$範數和切比雪夫距離)是$h\rightarrow ∞$時閔氏距離的推廣:
$d(i,j)=lim_{h\rightarrow∞} (\sum_{f=1}^p (\mid x_{if}-x_{jf} \mid)^{h})^{\frac{1}{h}} = max_{f}^p \mid x_{if}-x_{jf}\mid$
$L_∞$範數又稱一致範數
加權歐式距離:
$d(i,j)=\sqrt{w_1*(x_{i1}-x_{j1})^2 + w_2*(x_{i2}-x_{j2})^2 + ... + w_p*(x_{ip}-x_{jp})^2} $

4.5 序數屬性的鄰近性度量

假設$f$是用於描述$n$個對象的一組序數屬性之一。

關於$f$的相異性計算以下:
  1. 第$i$個對象的$f$值爲$x_{if}$,屬性$f$有$M_f$個有序的狀態,表示排位$1,...,M_f$。用對應的排位$r_{if}\in \lbrace1,...,M_f\rbrace$ 取代$x_{if}$。
  2. 因爲每一個序數屬性均可以有不一樣的狀態數,因此一般須要將每一個屬性的值域映射到$[0.0, 1.0]$ 上,以便每一個屬性都有相同的權重。咱們經過用$z_{if}$代替第$i$個對象的$r_{if}$ 來實現數據規格化,其中:
    $z_{if} = \frac{r_{if}-1}{M_f - 1}$
  3. 相異性能夠用任意一種數值屬性距離度量計算。

4.6 混合類型屬性的相異性

將不一樣的屬性組合在單個相異性矩陣中,把全部有意義的屬性轉換到共同的區間$[0.0, 1.0]$ 上。
假設數據集包含$p$個混合類型的屬性,對象$i$和$j$之間的相異性$d(i,j)$:
$d(i,j)=\frac{\sum_{f=1}^p \sigma_{ij}^{(f)} d_{ij}^{(f)}}{\sum_{f=1}^p \sigma_{ij}^{(f)}}$
其中,指示符$ \sigma_{ij}^{(f)} = 0$,若是$x_{if}$或$x_{jf}$缺失,或者$x_{if}=x_{jf}=0$, 而且$f$是非對稱二元屬性;不然,指示符$ \sigma_{ij}^{(f)} = 1$ 。
屬性$f$對$i$和$j$之間相異性的貢獻$ d_{ij}^{(f)}$根據類型計算:

  • $f$是數值的:$d_{ij}^{(f)}=\frac{\mid x_{if}-x_{jf}\mid}{max_hx_{hf} - min_hx_{hf}}$ ,其中$h$遍取$f$中全部非缺失值對象。
  • $f$是標稱或二元的:若是$x_{if}=x_{jf}$,則$d_{ij}^{(f)}=0$;不然$d_{ij}^{(f)}=1$。
  • $f$是序數的:計算排位$r_{if}$和$z_{if}=\frac{r_{if}-1}{M_f-1}$,並將$z_{if}$做爲數值屬性對待。

4.7 餘弦類似性

餘弦類似性能夠用來比較文檔,或針對給定的查詢詞向量對文檔排序
令$x, y$ 是兩個待比較的向量,使用餘弦度量做爲類似性函數:
$sim(x,y)=\frac{x*y}{\mid\mid x\mid\mid \mid\mid y\mid\mid}$
餘弦測量屬於非度量測度
當屬性是二值屬性時,餘弦類似性函數能夠用共享特徵或屬性解釋,因而$sim(x,y)$是公共屬性相對擁有的一種度量:$sim(x,y)=\frac{x*y}{x*x+y*y-x*y}$ ,(稱爲$Tanimoto$係數/距離)

相關文章
相關標籤/搜索