【機器學習】彙總——基礎

還需要系統梳理下,需要找本書 如何處理特徵向量的缺失值 缺失值較多:直接捨去,否則有較大的噪聲 缺失值較少(10%以內) 用NaN替代,0:data_train.fillna(0) 用均值填充:data_train.fillna(data_train.mean()),注意:均值填充可能需要條件填充,例如某訓練集中患癌症和不患癌症的數據中,該值的差距很大,那麼就應當使用label相同的數值的均值 用
相關文章
相關標籤/搜索