數據挖掘之特徵工程

特徵工程是使用專業背景知識和技巧處理數據,使得特徵能在機器學習算法上發揮更好的作用的過程。 本文主要目的在於熟悉做數據挖掘中對數據做預處理的主要流程。 1數據採集 哪些數據對最後的結果預測有幫助? 數據我們能夠採集到嗎? 線上實時計算的時候獲取是否快捷? 2數據格式存儲 確定存儲格式 大多數情況下,需要關聯非常非常非常多的hive表和 hdfs文件夾 ,這裏有非常大的學問,涉計到大數據方面技術問題
相關文章
相關標籤/搜索