[Kaggle實戰] Titanic 逃生預測 (3) - Age離散化

昨天的文章大致構建了一個data matrix, 並進行了數據清理。有一個遺留問題就是,如何將連續的Age屬性離散化?   對於連續屬性離散化,可以參考《數據挖掘導論》 2.3.6小節。 首先,我們試着將數據圖形化,看看是否有明顯的間隔區間。 畫圖依然使用JFreeChart來進行。 從肉眼的角度來分析,雖然沒有太明顯的區間,但是從分佈上看,基本上能如下圖進行劃分:   再來一張書上的原圖進行對比
相關文章
相關標籤/搜索