特徵工程：數據處理，模型訓練集錦(一)

時間 2021-01-07

原文原文鏈接

本文是長期學習總結筆記，文中圖片摘自寒小陽老師上課講義。數據格式化數據量不大，可以存文本，數據庫數據量大，放集羣hadoop上：hive表，hdfs文件數據清洗數據缺省如果缺值的樣本佔總數比例極高，我們可能就直接捨棄了，作爲特徵加入的話，可能反倒帶入noise，影響最後的結果了如果缺值的樣本適中，而該屬性非連續值特徵屬性(比如說類目屬性)，那就把NaN作爲一個新類別，加到類別特徵中

>>阅读原文<<