google機器學習速成課程

特徵工程 良好特徵的特點: 避免使用很少使用的離散特徵值,良好的特徵值應該出現5次以上 最好具有清晰明確的含義 不要將」神奇「的值域實際數據混爲一談,即不包含超出範圍的異常值 考慮上游不穩定,即特徵的定義不隨時間變化 數據縮放: [min,max] (value-mean)/stddev 處理離羣值: 取對數 限制最大值 分段或分箱 數據清理: 遺漏值 重複樣本 不良標籤 不良特徵值 奧卡姆剃刀:
相關文章
相關標籤/搜索