特徵選擇——互信息量

  最近作了一個數據比賽,因爲對數據背後的業務不太瞭解,因此特徵工程大多采起了「暴力」提取的方式,最終特徵過多直接致使模型存在過擬合問題。因此賽後總結在作特徵工程的過程當中就要考慮特徵的取捨問題,主要經過特徵與因變量Y之間的相關性分析作出判斷。   衡量單變量的相關性指標有不少,好比Pearson相關係數、Pearson卡方檢驗、Fisher得分、互信息等。html 目錄 信息量 信息熵 條件熵
相關文章
相關標籤/搜索