特徵工程:數據處理,模型訓練集錦(一)

本文是長期學習總結筆記,文中圖片摘自寒小陽老師上課講義。html ##數據格式化 數據量不大,能夠存文本,數據庫 數據量大,放集羣hadoop上:hive表,hdfs文件web ##數據清洗 數據庫 ##數據缺省 app 若是缺值的樣本佔總數比例極高,咱們可能就直接捨棄了,做爲特徵加入的話,可能反倒帶入noise,影響最後的結果了 若是缺值的樣本適中,而該屬性非連續值特徵屬性(好比說類目屬性),那
相關文章
相關標籤/搜索