《精通特徵工程》讀書筆記

一、機器學習流程 數據特性: 錯誤數據:測量時的錯誤 冗餘數據:對同一數據的多次表述 缺失數據 特徵: 原始數據的數值表示 正確的特徵應該適合當前的任務,並易於被模型所使用 特徵工程: 在給定數據、模型和任務的情況下設計出最合適的特徵 二、數值型數據 合理性檢查:正負等 考慮特徵的尺度:kmeans、knn、徑向基核函數、所有使用歐氏距離的方法均需要,對特徵進行標準化、區間計數 數值型特徵的分佈:
相關文章
相關標籤/搜索