機器學習常見數據概念

一、協方差:函數

計算兩個變量在變化過程當中的類似度,同向運動程度越高,值越大。測試

二、相關係數:spa

標準差:反映數據的離散程度,數據離散度越大,標準差越大。.net

經過標準差,將協方差的值約束到必定範圍內,去除協方差運動幅度的影響,只保留運動的類似度(相關度),這就是相關係數。3d

>0 and <=1 正相關; =0 不想關 ;>-1 and <0 負相關 。blog

三、方差class

描述樣本與均值的偏離程度變量

四、標準差im

表明了樣本的散度,值越小,散度越低。d3

 五、均方差

評價觀測值和真實值之間偏差,經常使用作線性模型的損失函數。

 

 

六、熵、kl散度(Kullback-Leibler (KL) divergence)、交叉熵

熵:

p(x)每一種可能的機率

kl散度:

p(x)、q(x) 兩種分佈下的,同一個變量的機率(訓練樣本/測試樣本?)

H(p(x))爲熵,作爲訓練樣本時,是常數,所以剩餘部分能夠表明散度,即交叉熵。 

交叉熵:

經常使用作損失函數,用來評價樣本差別度。

 

參考:https://blog.csdn.net/tsyccnh/article/details/79163834

 

 

 

---待不斷完善

相關文章
相關標籤/搜索