迴歸(regression)問題指一類爲一個或多個自變量與因變量之間關係建模的方法,一般用來表示輸入和輸出之間的關係。機器學習
機器學習領域中多數問題都與預測相關,當咱們想預測一個數值時,就會涉及到迴歸問題,如預測房價等。(預測不只包含迴歸問題,還包含分類問題)函數
線性迴歸(Linear Regression),自變量 $\textbf x$ 與因變量 $y$ 之間的關係是線性的,即 $y$ 能夠表示爲 $\textbf x$ 中元素的加權和。學習
咱們用 $n$ 來表示數據集中的樣本數,對索引爲 $i$ 的樣本,其輸入表示爲 $\textbf x^{\left ( i \right )}= \begin{bmatrix} x_{1}^{\left ( i \right )} & x_{2}^{\left ( i \right )}\end{bmatrix}^T$ ,其對應的標籤爲 $y^{\left ( i \right )}$ 。(這裏的輸入 $\textbf x$ 包含2個特徵)優化
假設1:影響房屋價格的關鍵因素是臥室個數、衛生間個數、居住面積,記爲 $x_{1}$ ,$x_{2}$ ,$x_{3}$ 。索引
假設2:房屋價格 $y$ 是關鍵因素的加權和,$y=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+b$ 。it
上式中的 $x_{1}$ ,$x_{2}$ ,$x_{3}$ 稱爲特徵, $w_{1}$ , $w_{2}$ , $w_{3}$ 稱爲權重(weight),$b$ 稱爲偏置(bias),或偏移量、截距。權重決定了每一個特徵對咱們預測值的影響。偏置是指全部特徵爲0時,預測值應爲多少。既是現實中不會有房子居住面積爲 $0$ ,或者沒有臥室,但咱們仍須要偏置項,由於它拓展了模型的表達能力。io
給定一個數據集,咱們的目標是尋找模型的權重 $\textbf w$ 和偏置 $b$ ,使得根據模型作出的預測大致符合數據裏的真實價格。變量
當輸入包含 $d$ 個特徵時,咱們將預測結果 $\hat{y}\in\mathbb{R}$ 表示爲:學習筆記
$$\hat{y}=w_{1}x_{1}+\cdots+w_{d}x_{d}+b$$方法
咱們用向量使表示更簡潔,特徵向量 $\textbf x\in\mathbb{R}^{d}$ ,權重向量 $\textbf w\in\mathbb{R}^{d}$ ,偏置 $b\in\mathbb{R}$ ,即:
$$\textbf x=\begin{bmatrix}x_{1} & x_{2} & \cdots & x_{d} \end{bmatrix}^T , \textbf w=\begin{bmatrix}w_{1} & w_{2} & \cdots & w_{d} \end{bmatrix}^T , b$$
該模型能夠用點積式表示:
$$\hat{y}=\textbf w^{T}\textbf x+b$$
上式中,向量 $\textbf x$ 僅對應於單個數據樣本的特徵,咱們使用 $\textbf X\in\mathbb{R}^{n\times d}$ 來表示整個數據集的 $n$ 個樣本。 $\textbf X$ 的每一行是一個樣本,每一列是一種特徵。
對於特徵集合 $\textbf X$ ,預測值向量 $\hat{\textbf y}\in\mathbb{R}^{n}$ 能夠經過矩陣-向量乘法表示爲:
$$\hat{\textbf y}=\textbf X\textbf w+b$$
在開始尋找最優的模型參數 $\textbf w$ 和 $b$ 以前,咱們還須要瞭解:模型質量的度量方式、更新和優化模型參數的方法。
損失函數能夠量化目標的真實值和預測值之間的差距。一般使用非負數做爲損失,數值越小表示損失越小,完美預測時爲 $0$ 。迴歸問題中最經常使用的損失函數就是平方損失函數。
當樣本 $i$ 的預測值爲 $\hat{y}^{\left ( i \right)}$ ,其對應的真實標籤爲 $y^{\left ( i \right)}$ 時,平方損失能夠表示爲:
$$l^{\left ( i \right)}\left ( \textbf w,b \right)=\frac{1}{2}\left( \hat{y}^{\left ( i \right)}-y^{\left ( i \right)}\right)^{2}$$
$\frac{1}{2}$ 是爲了求導方便。
爲了度量模型在整個數據集上的質量,咱們計算在訓練集上 $n$ 個樣本的損失均值:
$$L\left( \textbf w,b \right)=\frac{1}{n}\sum_{i=1}^{n}l^{\left( i \right )}\left( \textbf w,b \right )=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{2}\left( \textbf w^{T}\textbf x^{\left( i \right)}+b-y^{\left( i \right)}\right)^{2}=\frac{1}{2n}\Vert \textbf X\textbf w+b-\textbf y\Vert_2$$
在訓練模型時,咱們但願找到一組參數 $\left(\textbf w^{*},b^{*}\right)$ ,可以最小化在訓練集上的損失,表示以下:
$$\textbf w^{*},b^{*}=\mathop{\arg\min}_{\textbf w,b}L\left(\textbf w,b\right)$$
線性迴歸是一個很是簡單的優化問題,它的解能夠用一個公式簡單地表達出來,這類解叫作解析解(Analytical solution)。下面進行求解:
首先將偏置 $b$ 合併到權重 $\textbf w$ 中,即 $\textbf X \leftarrow \begin{bmatrix} \textbf X & \textbf 1 \end{bmatrix}$ ,$\textbf w \leftarrow \begin{bmatrix}\textbf w \\ b \end{bmatrix}$ ,此時,$\textbf X \in\mathbb{R}^{n\times \left(d+1\right)}$ ,$\textbf w \in\mathbb{R}^{d+1}$ 。
咱們的目標是,最小化損失(下式):
$$L\left( \textbf w \right)=\frac{1}{2n}\Vert \textbf y-\textbf X\textbf w \Vert_2$$
損失函數對參數 $\textbf w$ 求導:
$$\frac{\partial L\left(\textbf w \right )}{\partial \textbf w}=\frac{\partial L}{\partial \left(\textbf y-\textbf X\textbf w\right)}\frac{\partial \left(\textbf y-\textbf X\textbf w\right)}{\partial \textbf X\textbf w}\frac{\partial \textbf X\textbf w}{\partial \textbf w}$$
$$=\frac{1}{n}\left(\textbf y-\textbf X\textbf w\right)^{T}_{\left(1,n\right)}I_{\left(n,n\right)}X_{\left(n,d\right)}$$
$$=\frac{1}{n}\left(\textbf y-\textbf X\textbf w \right )^{T}\textbf X$$
損失函數是凸函數(不知道爲何,搞懂了再來寫),因此最小值知足:
$$\frac{\partial L\left(\textbf w\right)}{\textbf w}=0$$
$$\frac{1}{n}\left(\textbf y-\textbf X\textbf w \right )^{T}\textbf X=0$$
$$\textbf w^{*}=\left(\textbf X^{T}\textbf X\right)^{-1}\textbf X\textbf y$$
未完待續。。
本文爲學習筆記,學習內容來自李沐的https://zh-v2.d2l.ai/