數據處理和特徵工程

數據處理

離羣點處理

特徵工程

特徵選擇

特徵工程是數據分析中最耗時間和精力的工做,
更可能是工程上的經驗和權衡。

問題導向+專家導向:
    諮詢業務數據相關的專家對特徵維度有個初步瞭解。
    哪些特徵影響大,特徵影響小

篩選方法:

過濾法:

小於某個閾值的特徵過濾掉。

    方差:
        小於某個閾值直接捨棄。

    相關係數:
        主要用於輸出連續值的監督學習算法中。

        分別計算全部訓練集中各個特徵與輸出值之間的相關係數。         
    假設檢驗:
        卡方檢驗,檢驗某個特徵分佈和輸出值分佈之間的相關性。          
        F檢驗和t檢驗

    互信息(信息增益):    
        互信息值越大,說明該特徵和輸出值之間的相關性越大,越須要保留。

包裝法

根據目標函數,每次選擇若干特徵或者排除若干特徵,直到選擇出最佳的子集。
    
    嵌入法:先使用某些機器學習的算法和模型進行訓練,獲得各個特徵的權值係數,根據係數從大到小選擇特徵。相似於Filter方法,可是是經過訓練來肯定特徵的優劣。

決策樹

相關係數

參考
相關文章
相關標籤/搜索