數據集由數據對象
組成。一個數據對象表明一個實體,如:學校數據庫中對象能夠是學生、老師。
數據對象用屬性
來描述。數據庫
屬性是一個數據字段,表示數據對象的一個特徵。
屬性能夠是標稱的
、二元的
、序數的
或數值的
。數據結構
標稱屬性的值是一些符號
或事物的名稱
,這些值沒必要具備有意義的序(無序
)。每一個值表明某種類別、編碼或狀態,所以標稱屬性又被看作是分類的
。例如:頭髮顏色:黑色、黃色、棕色和白色。
標稱屬性不能求出均值和中位數,但能夠找出衆數
。函數
二元屬性是一種標稱屬性
,只有兩個類別或狀態:0或1。
例如:假設屬性smoker描述患者對象,1表示患者抽菸,0表示不抽菸。
二元屬性又稱布爾屬性
,當兩種狀態對應於true和false時。
二元屬性是對稱的
,當它的兩種狀態具備同等價值
並攜帶相同權重
,例如:性別屬性。
二元屬性是非對稱的
,當它的狀態或結果不是同等重要的,例如:HIV化驗的陽性結果和陰性結果。編碼
序數屬性是一種屬性,其可能的值之間具備有意義的序或秩評定
,但相繼值之間的差是未知的。例如:小、中、大或成績:A+、A、A-、B+。
序數屬性一般用於等級評定調查
。
序數屬性的中心趨勢
能夠用它的衆數
和中位數
表示,但不能定義均值。spa
定性的
,即描述對象特徵,但不給出實際大小。數據屬性是定量的
,能夠是區間標度
的或比率標度
的。code
相等的單位尺度
度量。區間屬性的值有序
,能夠爲正、0、負。所以,除了值的秩評定外,這種屬性容許咱們比較和定量評估值之間的差。例如:溫度屬性。固定零點
(即,能夠說一個值是另外一個值的倍數
或比率
)。這些值都是有序的
,例如:開式溫度(K)具備絕對零點(0°K = -273.15℃),在該點構成物質的粒子具備零動能。區間標度屬性除了中心趨勢度量中位數和衆數外,還能夠計算均值
。對象
離散屬性是有有限
或無限可數
個值,能夠用或不用整數表示。
若是屬性不是離散的,則它是連續的。blog
對於傾斜(非對稱)數據,數據中心的更好度量是中位數
。
可使用插值
計算整個數據集的中位數的近似值:
$ median = L_{1} + (\frac{\frac{N}{2} - (\sum freq)_{l}}{freq_{median}})*width $
$L_1$:中位數區間的下界, N:整個數據集中值的個數,$(\sum freq)_l$:低於中位數區間的全部頻數和,$freq_{median}$:中位數區間的頻數,$width$:中位數區間的寬度排序
一個數據集和能有多個衆數,當最高頻率對應多個不一樣的值,具備一個、兩個、三個衆數的數據集合分別稱爲單峯的
、雙峯的
和三峯的
,具備兩個及以上稱爲多峯的
。
一個數據集也可能沒有衆數,好比:每一個元素只出現一次。中列數
是數據集的最大值和最小值的平均值。ip
最大值
與最小值
之差基本上
大小相等的連貫集合。IQR
): $IQR = Q_3 - Q_1$ (其中,$Q_3$是第三個分位數,$Q_1$是第一個分位數)識別離羣點的通用規則
:挑選落在第三個四分位數之上或第一個四分位數之下至少$1.5*IQR$處的值。中位數
($Q_2$)、四分位數
$Q_1$和$Q_3$、最小
和最大觀測值
組成,按次序是$Minimum,Q_1,Median,Q_3,Maximum$均值
做爲中心度量時使用。包括分位數圖
、分位數-分位數圖(q-q圖)
、直方圖
和散點圖
,前三種圖顯示一元分佈
,散點圖顯示二元分佈
。
經過圖形表示清晰有效地表達數據。
類似性和相異性都稱鄰近性
。
若是兩個對象$i$和$j$不類似
,則它們的類似性度量爲0
。
數據矩陣(對象-屬性
結構):這種數據結構用關係表
的形式或$n*p$($n$個對象 x $p$個屬性)矩陣存放幾個數據對象:
$$ \left[ \begin{matrix} x_{11} & ... & x_{1f} & ... & x_{1p} \\ ... & ... & ... & ... & ... \\ x_{i1} & ... & x_{if} & ... & x_{ip}\\ ... & ... & ... & ... & ... \\ x_{n1} & ... & x_{nf} & ... & x_{np}\\ \end{matrix} \right] $$
相異性矩陣(對象-對象
結構):存放幾個對象兩兩之間的鄰近度
,一般用一個$n*n$矩陣表示:
$$ \left[ \begin{matrix} 0 & & & & \\ d(2,1) & 0 & & & \\ d(3,1) & d(3,2) & 0 & & \\ ... & ... & ... & ... & \\ d(n,1) & d(n,2) & ... & ... & 0 \\ \end{matrix} \right] $$
其中$d(i,j)$是對象$i$和對象$j$之間的相異性。通常$d(i,j)$是非負的
,$d(i,j)=d(j,i)$
類似性度量能夠表示成相異性度量的函數:
$sim(i,j) = 1- d(i,j)$, 其中$sim(i,j)$是對象$i$和$j$之間的類似性
數據矩陣常常被稱爲二模矩陣
,由兩種實體組成,即行和列。
相異性矩陣只包含一類實體,所以被稱爲單模矩陣
。
兩個對象$i$和$j$之間的相異性能夠根據不匹配率
來計算:
$d(i,j) = \frac{p-m}{p}$
其中,$m$是匹配數目
(即$i$和$j$取值相同狀態的屬性數),$p$是刻畫對象的屬性總數
。
類似性計算:$sim(i,j)=\frac{m}{p}$
二元屬性列聯表
對象$j$ | ||||
---|---|---|---|---|
1 | 0 | sum | ||
對象$j$ | 1 | $q$ | $r$ | $q+r$ |
0 | $s$ | $t$ | $s+t$ | |
sum | $q+s$ | $r+t$ | $p$ |
若是$i$和$j$都用對稱
的二元屬性刻畫,則$i$和$j$的相異性爲:
$d(i,j)=\frac{r+s}{q+r+s+t} $非對稱
的二元相異性:
$d(i,j)=\frac{r+s}{q+r+s} $
非對稱的二元類似性:
$sim(i,j)=\frac{q}{q+r+s} = 1-d(i,j) $ ,這被稱爲$Jaccard$係數
當對稱與非對稱的二元屬性同時出現時,使用混合屬性
方法。
歐幾里得距離
(即,直線):
$d(i,j)=\sqrt{(x_{i1}-x_{j1})^2 + (x_{i2}-x_{j2})^2 + ... + (x_{ip}-x_{jp})^2} $曼哈頓(或城市塊)距離
:城市兩點之間的街區距離
$d(i,j)=\mid x_{i1}-x_{j1}\mid + \mid x_{i2}-x_{j2} \mid +...+ \mid x_{ip}-x_{jp} \mid$
歐幾里得距離和曼哈頓距離知足如下性質: |
---|
非負性
:$d(i,j)≥0$同一性
:$d(i,i)=0$對稱性
:$d(i,j)=d(j,i)$三角不等式
:$d(i,j)≤d(i,k)+d(k,j)$知足這些條件的測度稱做度量
。
閔可夫斯基距離
是歐式距離和曼哈頓距離的推廣(又稱$L_p$範數):
$d(i,j)=((\mid x_{i1}-x_{j1}\mid)^{h} + (\mid x_{i2}-x_{j2} \mid)^{h} +...+ (\mid x_{ip}-x_{jp} \mid)^{h})^{\frac{1}{h}}$ ,其中$h≥1$.
當$h=1$時,表示曼哈頓距離
($L_1$範數)
當$h=2$時,表示歐式距離
($L_2$範數)上確界距離
(又稱$L_{max}$, $L_∞$範數和切比雪夫距離)是$h\rightarrow ∞$時閔氏距離的推廣:
$d(i,j)=lim_{h\rightarrow∞} (\sum_{f=1}^p (\mid x_{if}-x_{jf} \mid)^{h})^{\frac{1}{h}} = max_{f}^p \mid x_{if}-x_{jf}\mid$
$L_∞$範數又稱一致範數
。
加權歐式距離:
$d(i,j)=\sqrt{w_1*(x_{i1}-x_{j1})^2 + w_2*(x_{i2}-x_{j2})^2 + ... + w_p*(x_{ip}-x_{jp})^2} $
假設$f$是用於描述$n$個對象的一組序數屬性之一。
關於$f$的相異性計算以下: |
---|
將不一樣的屬性組合在單個
相異性矩陣中,把全部有意義的屬性轉換到共同的區間$[0.0, 1.0]$ 上。
假設數據集包含$p$個混合類型的屬性,對象$i$和$j$之間的相異性$d(i,j)$:
$d(i,j)=\frac{\sum_{f=1}^p \sigma_{ij}^{(f)} d_{ij}^{(f)}}{\sum_{f=1}^p \sigma_{ij}^{(f)}}$
其中,指示符$ \sigma_{ij}^{(f)} = 0$,若是$x_{if}$或$x_{jf}$缺失,或者$x_{if}=x_{jf}=0$, 而且$f$是非對稱二元屬性
;不然,指示符$ \sigma_{ij}^{(f)} = 1$ 。
屬性$f$對$i$和$j$之間相異性的貢獻$ d_{ij}^{(f)}$根據類型計算:
數值
的:$d_{ij}^{(f)}=\frac{\mid x_{if}-x_{jf}\mid}{max_hx_{hf} - min_hx_{hf}}$ ,其中$h$遍取$f$中全部非缺失值對象。標稱或二元
的:若是$x_{if}=x_{jf}$,則$d_{ij}^{(f)}=0$;不然$d_{ij}^{(f)}=1$。序數
的:計算排位$r_{if}$和$z_{if}=\frac{r_{if}-1}{M_f-1}$,並將$z_{if}$做爲數值屬性
對待。餘弦類似性
能夠用來比較文檔
,或針對給定的查詢詞向量對文檔排序
。
令$x, y$ 是兩個待比較的向量,使用餘弦度量
做爲類似性函數:
$sim(x,y)=\frac{x*y}{\mid\mid x\mid\mid \mid\mid y\mid\mid}$
餘弦測量屬於非度量測度
。
當屬性是二值
屬性時,餘弦類似性函數能夠用共享特徵或屬性
解釋,因而$sim(x,y)$是公共屬性相對擁有
的一種度量:$sim(x,y)=\frac{x*y}{x*x+y*y-x*y}$ ,(稱爲$Tanimoto$係數/距離)