關於線性模型你可能還不知道的二三事(1、樣本)

系列

目錄

1 樣本的表示形式
2 由線性模型產生的樣本
3 逆矩陣的意義html


1 樣本的表示形式

  在數據挖掘過程當中,樣本以特徵值矩陣X和目標值向量Y的形式表示。容量爲n,有m個特徵的樣本,其特徵值矩陣X由n個維度爲m的列向量組成,第j個列向量爲樣本中第j個個體的特徵值向量;目標值向量Y的第j個份量爲樣本中第j個個體的目標值:算法


 

2 由線性模型產生的樣本

  已知樣本的特徵值矩陣X,由線性模型生成樣本的目標值向量的方式由如下公式定義:機器學習

  權值向量W是維度爲m的行向量,偏差向量e爲維度爲n的行向量,其份量獨立同分布,服從均值爲0的正態分佈。之因此說這樣的樣本是由線性模型生成,是由於知足:學習

  也就是說,從指望的角度來講,目標值和特徵值存在線性關係!在假設樣本是由線性模型產生的前提下,咱們一般使用基於線性模型的機器學習算法來解決迴歸問題,例如:最小均方法(LMS),最小二乘法,迴歸支持向量機法等。可是,假設讓一個徹底沒有機器學習背景的人來解決迴歸問題,他該如何入手呢?測試

  解決迴歸問題,歸根結底是要預測新個體的目標值。一個最直觀的方式就是,讓新個體(測試樣本中的個體)與已知個體(訓練樣本中的個體)比較類似性(特徵向量類似),類似度越高意味着新個體的目標值與該已知個體的目標值更接近。這樣一來,計算新個體與已知個體的類似性成爲預測工做的關鍵之處。3d

  餘弦類似性與歐式距離是衡量向量類似的最基本的兩個方法。暫且讓咱們簡化一下模型:假設樣本只有2個特徵,權值向量爲[1, 2],在指望狀況下,特徵值和目標值構成三維空間中的平面,權值向量爲該平面的法平面。經過如下兩例,咱們能夠得知餘弦類似性和歐式距離在線性模型中沒法使用。htm

  例1、餘弦類似性blog

 

  在本例中,已知個體(紅色)的特徵值向量爲[1, 1],未知個體(綠色)的特徵向量爲[2, 2],經過計算餘弦類似度,可得未知個體與該已知個體一致類似,其目標值也應當爲1 + 2 * 1 = 3。但實際上,若樣本是經過線性模型生成的話,其目標值應當約爲2 + 2 * 2 = 6。由該例咱們能夠看到,餘弦類似度只考慮了特徵值向量的方向性,過於片面。get

  例2、歐式距離數據挖掘

  在本例中,有兩個已知個體(紅色與紫色),其特徵值向量與未知個體的特徵值向量的歐式距離都等於1。在這種狀況下,該未知個體的目標值應當與哪一個已知個體更接近呢?若是樣本是由線性模型產生的,該未知個體的目標值應當約爲2 + 2 * 2 = 6。因此,以紫色的已知個體的目標值做爲未知個體的目標值相對來講合適一點。經過該例可知,歐式距離也不適合在線性模型中使用。


 

3 逆矩陣的意義

  那到底怎麼才能準確地描述未知個體與已知個體的類似性呢?在此,咱們不妨再次假設樣本容量n=m,且特徵值矩陣X是可逆的,也就是說樣本中的個體是線性無關的。咱們知道逆矩陣有這樣的性質:

  這對咱們有什麼啓發呢?假設未知個體的特徵值向量爲x,x能夠用X的m個線性無關列向量(已知個體的特徵值向量)表示:

  此時將X的逆矩陣乘以未知個體x,可得:

  根據上式咱們能夠看到,在已知個體是線性無關的前提下,若未知個體能包含ai份第i個已知個體的特徵,則其與第i個已知個體的近似度就爲ai。顯然。這樣的近似表示方法,在線性模型中才是準確的。

  若是樣本的容量n大於m,咱們該如何處理呢?假設X的秩仍然等於m,但因爲X不是方陣,沒法求解逆矩陣。此時咱們能夠將原線性模型改寫成:

  此時,X乘以X的轉置則變成了m維的方陣,因爲X的秩爲m,X與X轉置的乘積的秩也爲m,便可逆。此時咱們須要將Y與X的轉置的乘以當作新的目標值向量,X與X轉置的乘積當作新的已知個體的特徵值矩陣,e與X轉置的乘積當作新的偏差向量。不難看到,原始問題與新問題的解(迴歸問題的解一般是求權值向量)是「等價」的。在新問題中,特徵值矩陣是方陣且可逆,這樣即可經過求解新問題來解決原始問題了。

相關文章
相關標籤/搜索