Python數據挖掘入門與實踐 第二章2.2 流水線在預處理中的應用

2.2 流水線在預處理中的應用 現實中,物體不同特徵的取值範圍會非常廣,它們的值域可能存在天壤之別。 例如材料學裏面,不同材料的特徵值, 單位g重之類的,可能就是1和10的差別, 但是拉伸強度之類的,需要使用log來進行處理,一個差就是幾萬, 顯然,單純的使用數字來進行K近鄰分析的時候, 拉伸強度就會是最顯著的特徵, 但特徵值大小實際上與該特徵的分類效果沒有任何關係。 不同特徵的取值範圍千差萬別,
相關文章
相關標籤/搜索