離散型變量的編碼方式——one-hot與啞變量(dummy variable)

我們在用模型去解決機器學習問題的時候,要提前進行「特徵工程」。而特徵工程中很重要的就是對特徵的預處理。 當你使用的是logistic迴歸這樣的模型的時候,模型要求所有特徵都應該是數值型變量,即連續的。但我們生活中常常遇到類別型變量(categorical variable),例如著名的Kaggle泰坦尼克生還預測這個比賽中,乘客從哪裏上船(Embarked)這個變量就是類別型變量。這三個登船點兩兩
相關文章
相關標籤/搜索