機器學習基礎概念辨析

假設函數

hypothesis function
定義:
    假設函數能夠看作是對於已知數據創建的初始模型。

目的:
    在監督學習中,爲了擬合輸入樣本,而使用的假設函數,記爲hθ(x) 。

損失函數

loss function

又稱爲偏差函數(error function)。

名稱由來:
    損失或者偏差,能夠理解爲精度的損失或者與真實值的偏差,
    由於咱們擬合的函數不是100%精確的,而是一個大概的。
    不少機器學習場景,咱們也作不到百分之擬合。
    因此有了偏差的說法。

目的:
    爲了評估模型擬合的好壞,一般用損失函數來度量擬合的程度。

代價函數

cost function
 
代價函數是對目標函數求解過程當中所付出的代價,
換句話說代價函數是用來求解目標函數的手段,代價函數有優化的花費。

 cost function 是對數據集總體的偏差描述,
 是選定參數 w 和 b 後對數據進行估計所要支付的代價(求解路徑),
 cost 是對全部數據的偏差取平均獲得的。

目標函數

目標函數在假設函數和已知數據的之間創建的函數關係,

歸一化

當有新數據加入時,可能致使max和min的變化,須要從新定義。

Min-Max

   x' = (x - X\_min) / (X\_max - X\_min)

平均歸一化

   x' = (x - μ) / (MaxValue - MinValue)

非線性歸一化

標準化

Z-score

標準差標準化 / 零均值標準化

x' = (x - μ)/σ

中心化

  x' = x - μ

特徵縮放

特徵縮放有時能提升算法的收斂速度,特徵縮放是用來標準化數據特徵的範圍。

x′\=x−x¯ / σ

爲何須要特徵縮放?

一、可讓梯度降低的路線不是那麼曲折,(等高線的橢圓與圓形)

二、使得每一個特徵的範圍有可比性

哪些模型必須歸一化/標準化?

特徵工程中的「歸一化」有什麼做用?算法

特徵縮放機器學習

歸一化 (Normalization)、標準化 (Standardization)和中心化/零均值化 (Zero-centered)函數

相關文章
相關標籤/搜索