特徵工程_note

首先明確概念:用來訓練模型的數據集越大,數據質量越好,數據模型的複雜度就越低web 若是特徵來自於不一樣的文件、數據庫表、csv等,就要把不一樣地方的數據進行規整,統一存儲在一個方便之後使用的地方算法 數據清洗 數據樣本抽樣 異常值、空值處理數據庫 數據樣本抽樣要注意: 抽樣要具備表明性:樣本各個特徵的比例要儘可能與總體的比例保持一致 樣本比例要平衡以及樣本不平衡時要如何處理 儘可能考慮使用所有的
相關文章
相關標籤/搜索