特徵工程:數據處理,模型訓練集錦(一)

本文是長期學習總結筆記,文中圖片摘自寒小陽老師上課講義。 數據格式化 數據量不大,可以存文本,數據庫 數據量大,放集羣hadoop上:hive表,hdfs文件 數據清洗 數據缺省 如果缺值的樣本佔總數比例極高,我們可能就直接捨棄了,作爲特徵加入的話,可能反倒帶入noise,影響最後的結果了 如果缺值的樣本適中,而該屬性非連續值特徵屬性(比如說類目屬性),那就把NaN作爲一個新類別,加到類別特徵中
相關文章
相關標籤/搜索