數據預處理:歸一化/標準化詳解

前言 一般而言,樣本的原始特徵中的每一維特徵由於來源以及度量單位不同,其特徵取值的分佈範圍往往差異很大,比如身高、體重、血壓等它們的度量和分佈範圍往往是不一樣的。當我們計算不同樣本之間的歐氏距離時,取值範圍大的特徵會起到主導作用。這樣,對於基於相似度比較的機器學習方法(比如最近鄰分類器),必須先對樣本進行預處理,將各個維度的特徵歸一化到同一個取值區間,並且消除不同特徵之間的相關性,才能獲得比較理想
相關文章
相關標籤/搜索