轉換爲網絡結構,以下圖所示:網絡
(1)數值特性:框架
① 連續特徵:log1P、|x| 、ex、歸一化、離散化、順序號等。機器學習
② 離散特徵:頻率、目標編碼、One-hot 編碼、合併、Label-Encoder 等。學習
(2)特徵提取(以文本爲例):優化
特徵特徵提取與特徵選擇有很大的不一樣:前者包括將任意數據(如文本或圖像)轉換爲可用於機器學習的數值特徵。後者是將這些特徵應用到機器學習中。編碼
(3)交叉特徵:spa
① 文本交叉特徵:文本類似度、N-gram 集合關係、詞向量差、子串匹配、模糊匹配等。3d
② 數值交叉特徵:a-b 、|a-b| 、a>b 、a*b 、 a/b 、 (a-b)2 等。code
(4)特徵選擇、降維:blog
① 特徵選擇:Stepwise Regression(逐步迴歸)、特徵重要性 ;
② 隨機投影:Locality-Sensitive Hashing 、隨機投影 ;
注:隨機投影矩陣的維度和分佈是受控制的,因此能夠保存任意兩個數據集的距離。所以隨機投影適用於基於距離的方法。
③ 線性投影:PCA(主份量分析)、LDA(線性判別分析);
④ 非線性投影:Auto-Encoder(自動編碼??)、GDA(標準廣義判別分析)。
(5)模型選擇、調參:
① 模型選擇:暴力搜索 ;
② 超參數選擇:網格搜索、隨機搜索、Bayes Optimization(貝葉斯優化)。
轉換爲網絡結構,以下圖所示:
相似於機器學習的分析。