google機器學習速成課程

特徵工程算法 良好特徵的特色:api 避免使用不多使用的離散特徵值,良好的特徵值應該出現5次以上 最好具備清晰明確的含義 不要將」神奇「的值域實際數據混爲一談,即不包含超出範圍的異常值 考慮上游不穩定,即特徵的定義不隨時間變化 數據縮放:緩存 [min,max] (value-mean)/stddev 處理離羣值:服務器 取對數 限制最大值 分段或分箱 數據清理:網絡 遺漏值 重複樣本 不良標籤
相關文章
相關標籤/搜索