數據分析基礎——基本運算

數據分析基礎——基本運算

x=[n*m]型矩陣數據,n是佯本數,m是變量維數;spa

*********************************基本公式************************************數據分析

均值:每一列的均值基礎

mean(xj)=(xj1+xj2+...+xjn)/n變量

方差:計算每一列的方差方法

var(xj)=[(xj1-mean(xj))^2+(xj2-mean(xj))^2+...+(xjn-mean(xj))^2]/nim

標準差:方差的開方數據

std=var(xj)^1/2img

協方差:變量xj和xk之間協方差co

cov(xj, xk)=[(xj1-mean(xj))*(xk1-mean(xk))+...+(xjn-mean(xj))*(xkn-mean(xk))]/nblock

相關係數:變量xj和xk之間的相關係數 ,反映兩個變量的類似程度0~1;

r(xj , xk)=cov(xj , xk)/[std(xj)*std(xk)]

向量內積:變量x和y之間的內積

(x1y1+x2y2+...+xmym)

向量x,y之間的夾角:內積/(模x*模y)

(x1y1+x2y2+...+xmym)/ [(x1^2+x2^2+...+xm^2)^1/2 *  (y1^2+y2^2+...+ym^2)^1/2]

內積和夾角之間的關係

***********************************基本處理********************************

數據中心化:均值爲0,中心在原點

Xij=xij-mean(xj)

數據無量綱化:各類無量綱方法,對數據壓縮

Xij=xij/std(xj)

Xij=xij/max(xj)

Xij=xij/min(xj)

Xij=xij/mean(xj)

Xij=xij/[max(xj)-min(xj)]

數據歸一化:其實和上面無量綱一個意思,對數據中心化和壓縮

Xij=[xij-min(xj)]/[max(xj)-min(xj)]

數據標準化:標準化是對數據每列佯本數進行標準化,均值爲0,方差爲1;標準化的目的是對數據進行中心化和壓縮

Xij=(xij-mean(xj))/std(xj)

變量歸一化(單位圓化):對每一個佯本進行歸一化(變量間歸一化),中心在原點,距離爲1;注意這裏是對每一行進行歸一化,每一個佯本的模爲1;

Xij=xij/(xi1^2+xi2^2+...+xim^2)^1/2

說明:因該針對不一樣的問題,採用不一樣數據處理方法,不能盲目用以上方法,好比:歸一化是對列仍是對行進行處理,須要看數據針對的問題。

心得:單位圓化後的兩個向量的夾角=其內積

補充:測定係數R^2(多元迴歸中叫複測定係數),對迴歸方程的一個評價指標。(參考偏最小二乘迴歸的線性與非線性方法(書.王惠文))

 

 

 

相關文章
相關標籤/搜索