Spark機器學習--Ch3 ----3.4從數據中提取有用特徵

類別特徵: 原始形式時,取值可能來自一個集合而不是數字,所以不能作爲輸入。 也稱爲:      名義變量:各個取值之間沒有順序關係。      有序變量:存在順序關係,比如評級。 將類別特徵表示爲數字形式,常可藉助k之1編碼(1-of-k)。 派生特徵: 從原始數據派生特徵的例子:平均值、中位數、方差等。 數值特徵到類別特徵的轉換:比如劃分區間的年齡、地理位置和時間。 文本特徵 一種簡單標準化的特
相關文章
相關標籤/搜索