預處理

當我們拿到一批原始的數據 首先要明確有多少特徵,哪些是連續的,哪些是類別的。 檢查有沒有缺失值,對缺失的特徵選擇恰當方式進行彌補,是數據完整。 對連續的數值型特徵進行標準化,是的均值爲0,方差爲1. 對類別型的特徵進行one-hot編碼。 將需要轉換成類別型數據的連續型數據進行二值化。 爲防止過擬合或者其他原因,選擇是否要將數據進行正則化。 在dataset中,假如數據格式是[n,30]n是樣本數
相關文章
相關標籤/搜索